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内 容 提要 


本 书 概念 清晰 、 实 例 详尽 ， 是 一 本 有 关 设 计 、 实 现 和 有 效 使 用 C 
语言 库 贸 数 ， 掌 握 创 建 可 重用 C 语 言 软件 模块 技术 的 参考 指南 。 书 中 
提供 了 大 量 实例 ， 重 在 阐述 如 何 用 一 种 与 语言 无 关 的 方法 将 接口 设计 
实现 独立 出 来 ， 从 而 用 一 种 基于 接口 的 设计 途径 创建 可 重用 的 API。 


本 书 是 所 有 C 语 言 程序 员 不 可 多 得 的 好 书 ， 也 是 所 有 希望 掌握 可 
重用 软件 模块 技术 的 人 员 的 理想 参考 书 ， 适 合 各 层次 的 面 网 对 象 软件 
开发 人 员 、 系 统 分 析 员 阅读 。 
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如 今 的 程序 员 忙 于 应 付 大 量 关 于 API (Application Programming 
Interface) 的 信息 。 但 是 ， 大 多 数 程序 员 都 会 在 其 所 写 的 几乎 每 一 个 
应 用 程序 中 使 用 API 并 实现 API 的 库 ， 只 有 人 少数 程序 员 会 创建 或 发 布 新 
的 能 广泛 应 用 的 API。 事实 上 ， 程 序 员 似乎 更 喜欢 使 用 上 自己 搞 的 东 
西 ， 而 不 愿意 查找 能 满足 他 们 要 求 的 程序 库 ， 这 或 许 是 因为 写 特定 应 
用 程序 的 代码 要 比 设计 可 广泛 使 用 的 API 容 易 。 


不 好 意思 ， 我 也 未 能 免 俗 ， lcc 〈 我 和 Chris Fraser 为 ANSIISO C 编 
写 的 编译 器 ) 就 是 从 头 开 始 编写 的 API。 (在 A Retargetable C 
Compiler: Design and Implementation 一 书 中 有 关于 lcc 的 介绍 。) 编译 
需 是 这 样 一 类 应 用 程序 :可 以 使 用 标准 接口 ， 并 且 能 够 创建 在 其 他 地 
方 也 可 以 使 用 的 接口 。 这 类 程序 还 有 内 存 管理 、 字 符 串 和 符号 表 以 及 
链表 操作 等 。 但 是 lcc 仅 使 用 了 很 少 的 标准 C 库 函数 的 例 程 ， 并 且 它 的 
代码 几乎 都 无 法 直接 应 用 到 其 他 应 用 程序 中 。 


本 书 提倡 的 是 一 种 基于 接口 及 其 实现 的 设计 方法 ， 并 且 通 过 对 24 
个 接口 及 其 实现 的 描述 详细 演示 了 该 方法 。 这 些 接 口 涉及 很 多 计算 机 
领域 的 知识 ， 包 括 数据 结构 、 算 法 、 字 符 串 处 理 和 并 发 程序 。 这 些 实 
现 并 不 是 简单 的 玩具 ， 而 是 为 在 产品 级 代码 中 使 用 而 设计 的 。 实 现 的 
代码 是 可 免费 提供 的 。 


C 编 程 语言 基本 不 文 持 基 于 接口 的 设计 方法 ， 而 C++ 和 Modula-3 这 
样 的 面向 对 象 的 语言 则 或 励 将 接口 与 实现 分 离 。 基 于 接口 的 设计 跟 具 


体 的 语言 无 关 ， 但 是 它 要 求 程序 员 对 像 C 一 样 的 语言 有 更 强 的 芍 驭 能 
力 和 更 高 的 警惕 性 ， 因 为 这 类 语言 很 容易 破坏 这 有 隐 侣 实现 信息 的 接 
口 ， 反 之 亦 然 。 


然而 ， 一 旦 掌握 了 基于 接口 的 设计 方法 ， 就 能 够 在 服务 于 众多 应 
用 程序 的 通用 接口 基础 上 建立 应 用 程序 ， 从 而 加 快 开 发 速度 。 在 一 些 
C++ 环境 中 的 基础 类 库 就 体现 了 这 种 效果 。 增 加 对 现 有 软件 〈 接 口 实 
现 库 ) 的 重用 ， 能 够 降低 初始 开发 成 本 ， 同 时 还 能 降低 维护 成 本 ， 因 
为 应 用 程序 的 更 多 部 分 都 建立 在 通用 接口 的 实现 之 上 ， 而 这 些 实现 无 
不 经 过 了 民 好 的 测试 。 


本 书 中 的 24 个 接口 引 目 几 本 参考 书 ， 并 且 针 对 本 书 特 别 做 了 修 
正 。 一 些 数 据 结构 (抽象 数据 类 型 ) 中 的 接口 源 于 lcc 代 码 和 20 世 纪 70 
年 代 末 到 80 年 代 初 所 做 的 Icon 编程 语言 的 实现 代码 〈 参 见 R. E. 
Griswold 和 M. T. Griswold 所 著 的 The Icon Programming Language ) 
其 他 的 接口 来 目 另 外 一 些 程序 员 的 著作， 我 们 将 会 在 每 一 章 的 “扩展 阅 
读 ? 部 分 给 出 详细 信息 。 


书 中 提供 的 一 些 接口 是 针对 数据 结构 的 ， 但 本 书 不 是 介绍 数据 结 
构 的 ， 本 书 的 侧重 点 在 算法 工程 (包装 数据 结构 以 供应 用 程序 使 
用 ) ， 而 不 在 数据 结构 算法 本 身 。 然 而 ， 接 口 设计 的 好 坏 总 是 取决 于 
数据 结构 和 算法 是 否 合适 ， 因 此 ， 本 书 可 算是 传统 数据 结构 和 算法 教 
材 (如 Robert Sedgewick 所 闭 的 Algorithms in C) 的 有 益 补充 。 


大 多 数 章 节 会 只 介绍 一 个 接口 及 其 实现 ， 少 数 划 市 还 会 搬 述 与 其 
相关 的 接口 。 每 一 章 的 “接口 ”部 分 将 会 单独 给 出 一 个 明确 而 详细 的 接 
口 描述 。 对 于 兴趣 仅 在 于 接口 的 程序 员 来 说 ， 这 些 内 容 束 相当 于 一 本 


参考 手册 。 少 数 章 市 还 会 包含 “例子 ”部 分 ， 会 说明 在 一 个 简单 的 应 用 
程序 中 接口 的 用 法 。 


每 章 的 “实现 ?部 分 将 会 详细 地 介绍 本 章 接 口 的 实现 代码 。 有 些 例 
子 会 给 出 一 个 接口 的 多 种 实现 方法 ， 以 展示 基于 接口 设计 的 优点 。 这 
些 内 容 对 于 修改 或 扩展 一 个 接口 或 是 设计 一 个 相关 的 接口 将 大 有 神 
益 。 许 多 练习 题 会 进一步 探究 一 些 其 他 可 行 的 设计 与 实现 的 方法 。 如 
林 仅 是 为 了 理解 如 何 使 用 接口 ， 可 以 不 用 阅读 “实现 ”一 他 。 


接口 、 示 例 和 实现 都 以 文学 (literate) 程序 的 方式 给 出 ， 换 句 话 
说 ， 源 代码 及 其 解释 是 按照 最 适合 理解 代码 的 顺序 交织 出 现 的 。 代 码 
可 以 目 动 地 从 本 书 的 文本 文件 中 抽取 ， 并 按 C 语 言 所 规定 的 顺序 组 合 
起 来 。 其 他 也 用 文学 程序 讲解 C 语 言 的 图 书 有 A Retargetable C 
Compiler 和 D. E. Knuth 写 的 The Stanford GraphBase: A Platform for 


Combinatorial Computing ° 


本 书架 构 


本 书 材料 可 分 成 下 面 的 几 大 类 : 
基础 1. 引言 
2. 接口 与 实现 
4. 异常 与 断言 
5. 内 存 管理 
6. 再 谈 内 存 管 理 
数据 结构 7. 链表 


8. 表 


9. 集合 

10. 动态 数组 
11. 序列 
12. 环 
13. 位 向 量 


字符 串 3. 原子 
14. 格式 化 
15. 低级 字符 串 
16. 高 级 字符 串 


算法 17. 扩展 精度 算术 
18. 任意 精度 算术 
19. 多 精度 算术 


线程 20. 线程 


建议 大 多 数 读者 通读 第 1 章 至 第 4 章 的 内 容 ， 因 为 这 几 章 形成 了 本 
书 其 余部 分 的 框架 。 对 于 第 5 章 人 至 第 20 草 ， 昌 然 某 些 划 会 参考 其 前 面 的 
内 容 ， 但 影响 不 大 ， 读 者 可 以 按 任何 顺序 阅读 。 


第 1 章 介绍 了 文学 程序 设计 和 编程 风格 与 效率 。 第 2 草 提出 并 摘 述 
了 基于 接口 的 设计 方法 ， 定 义 了 相关 的 术语 ， 并 演示 了 两 个 简单 的 接 
口 及 其 实现 。 第 3 章 撒 述 了 Atom 接 口 的 实现 原型 ， 这 是 本 书 中 最 简单 
的 具有 产品 质量 的 接口 。 第 4 章 介 绍 了 在 每 一 个 接口 中 都 会 用 到 的 异常 
与 断言 。 第 5 草 和 第 6 草 描述 了 几乎 所 有 的 实现 都 会 用 到 的 内 存 管 理 接 
口 。 其 余 各 章 都 分 别 描述 了 一 个 接口 及 其 实现 。 


教学 使 用 建议 


我 们 假设 本 书 的 读者 已 经 在 大 学 介绍 性 的 编程 课程 中 了 解 了 C 语 
言 ， 并 且 都 实际 了 解 了 类 似 《C 算 法 》 一 书 中 给 出 的 基本 数据 结构 。 
在 普林斯顿 ， 本 书 是 大 学 二 年 级 学 生 到 人 研究 生 一 年 级 的 系统 编程 课程 
的 教材 。 许 多 接口 使 用 的 都 是 高 级 C 语 言 编程 技巧 ， 比 如 说 不 透明 的 
站 针 和 指向 指针 的 指针 等 ， 因 此 这 些 接 口 都 古 学 习 这 些 内 容 非常 好 的 
实例 ， 对 于 系统 编程 和 数据 结构 课程 非常 有 用 。 


这 本 书 可 以 以 多 种 方式 在 课堂 上 使 用 ， 最 简单 的 束 是 用 在 面向 项 
目的 课程 中 。 例 如 ， 在 编译 原理 课程 中 ， 学 生 通 党 需要 为 一 个 玩具 语 
言 编写 一 个 编译 项 。 在 图 形 学 课程 中 同样 也 经 常 有 一 些 实际 的 项 目 。 
本 书 中 许多 接口 消除 了 新 建 项 目 所 需要 的 一 些 令 人 厌烦 的 编程 工作 ， 
从 而 简化 了 这 类 课程 中 的 项 目 。 这 种 用 法 可 以 帮助 学 生 认识 到 在 项 目 
中 重用 代码 可 以 市 省 大 量 劳动 ， 并 且 引 导 学 生 在 其 项 目 中 对 目 己 所 做 
的 部 分 笑 试 使 用 基于 接口 的 设计 。 后 者 在 团队 项 目 中 特别 有 用 ， 
为 “现实 世界 ”中 的 项 目 通 常 部 是 团队 项 目 。 


普林斯顿 大 学 二 年 级 系统 编程 课程 的 主要 内 容 是 接口 与 实现 ， 其 
课外 作业 要 求学 生成 为 接口 的 用 户 、 实 现 者 和 设计 者 。 例 如 其 中 的 一 
个 作业 是 这 样 的 ， 我 给 出 了 8.1 市 中 描述 的 Table 接 口 、 它 的 实现 的 目标 
代码 以 及 8.2 节 中 描述 的 单词 频率 程序 wf 的 说 明 ， 让 学 生 只 使 用 我 们 为 
Table 设 计 的 目标 代码 来 实现 wf。 在 下 一 个 作业 中 ，wf 的 目标 代码 就 有 
了 ， 他 们 必须 实现 Table。 有 时 我 会 颠倒 这 些 作 业 的 顺序 ， 但 是 这 两 种 
顺序 对 大 部 分 学 生来 说 都 是 很 新 颖 的 。 他 们 不 习惯 在 大 部 分 程序 中 只 
使 用 目标 代码 ， 并 且 这 些 作 业 通 常 都 是 他 们 第 一 次 接触 到 在 接口 和 程 
序 说 明 中 使 用 半 正 式 表 示 法 。 


最 初 布 络 的 作业 也 介绍 了 作为 接口 说 明 必 要 组 成 部 分 的 可 检查 的 
运行 时 错误 和 断言 。 同 样 ， 只 有 做 过 儿 次 这 样 的 作业 之 后 ， 学 生 们 才 
开始 理解 这 些 概 念 的 意义 。 我 禁止 了 突 发 性 有 衣 演 ， 即 不 是 由 断言 错误 
的 诊断 所 宣布 的 月 并。 运行 崩 潢 的 程序 将 被 判 为 零 分 ， 这 样 做 似乎 过 
于 苛刻 ， 但 是 它 能 够 引起 学 生 们 的 注意 ， 而 且 也 能 够 让 学 生理 解 安全 
语言 的 好 处 ， 例 如 ML 和 Modula-3， 在 这 些 语言 中 ， 不 会 出 现 突 发 性 出 
imo (这 种 评分 方法 实际 上 没有 那么 苛刻 ， 因 为 在 分 成 多 个 部 分 的 作 
业 中 ， 只 有 产生 冲突 的 那 部 分 作业 才 会 判 为 错误 ， 而 且 不 同 的 作业 权 
重 也 不 同 。 我 给 过 许多 0 分 ， 但 是 从 来 没有 因此 导致 任何 一 个 学 生 的 课 
程 总 成 绩 降 低 达 1 分 。) 


一 旦 学 生 们 有 了 自己 的 儿 个 接口 后 ， 接 下 来 束 让 他 们 设计 新 的 接 
口 并 沿用 以 前 的 设计 选择 。 例 如 ，Andrew Appel 最 喜欢 的 一 个 作业 是 
一 个 原始 的 测试 程序 。 学 生 们 以 组 为 单位 设计 一 个 作业 需要 的 任意 算 
术 精 度 的 接口 ， 作 业 的 结果 类 似 于 第 17 章 到 第 19 章 中 描述 的 接口 。 不 
同 的 组 设计 的 接口 不 同 ， 完 成 后 对 这 些 接口 进行 比较 ， 一 个 组 对 另 一 
个 组 设计 的 接口 进行 评价 ， 这 样 做 很 有 启迪 作用 。Kai Li 的 那个 需要 
-个 学 期 来 完成 的 项 目 也 达到 了 同样 的 学 习 实 践 效果 ， 该 项 目 使 用 
Tcl/Tk 系 统 (BWI. K. Ousterhout 所 著 的 Tel and the Tk Toolkit ) 以 及 学 
生 们 设计 和 实现 的 编辑 程序 专用 的 接口 ， 构 建 了 一 个 基于 X 的 编辑 程 
序 。Tk 本 身 就 是 一 个 很 好 的 基于 接口 的 设计 。 


在 融 级 谋 程 中 ， 我 通常 把 作业 打包 成 接口 ， 学 生 可 以 目 行 修改 和 
改进 ， 甚 至 改变 作业 的 目标 。 给 学 生 设 铬 一 个 起 点 可 以 减少 他 们 完成 
作业 所 需 的 时 间 ， 人 允许 他 们 做 一 些 实质 性 的 修改 避 励 了 有 创造 性 的 学 
生 去 探索 新 的 解决 办 法 。 通 第 ， 那 些 不 成 功 的 方法 比 成 功 的 方法 更 让 
学 生 记 忆 深 刻 。 学 生 不 可 避免 地 会 走 错 路 ， 为 此 也 付出 了 更 多 的 开发 


时 间 。 但 只 有 当 他 们 事后 再 回 过 头 来 看 ， 才 会 了 解 所 犯 的 错误 ， 也 才 
会 知道 设计 一 个 好 的 接口 虽然 很 困难 ， 但 是 值得 付出 努力 ， 而 且 到 最 
后 ， 他 们 几乎 都 会 转 到 基于 接口 的 设计 上 来 。 

如 何 得 到 代码 


本 书 中 的 代码 已 经 在 以 下 平台 上 通过 了 测试 。 


处 理 器 操作 系统 编 译 器 
SPARC SunOS 4.1 Iec 3.5 
gcc 2.7.2 
Alpha OSF/1 3.2A lcc 4.0 
gcc 2.6.3 
cc 
MIPS R3000 IRIX 5.3 Iec 3.5 
gcc 2.6.3 
ce 
MIPS R3000 Ultrix 4.3 lcc 3.5 
gcc 2.5.7 
Pentium Windows 95 Microsoft Visual C/C++ 4.0 


Windows NT 3.51 


ELL PS SEEN EDT FF ED Lam ° ESK A Da BE FD AY a — 
进 制 补 码 表示 的 整数 和 IEEE 浮 点 算术 ， 并 且 无 符号 的 长 整数 可 以 用 来 
保存 对 象 指针 。 


本 书 中 所 有 的 源 代 人 码 在 ftp.cs.princeton.edu 的 目 孙 pub/packages/cii 
BR, EZRA A TR o EH ftp P im BK PE Be a 
ftp.cs.princeton.edu, #%#!| pub/packages/cii Hh 3¢, - {README Xf, 
文件 中 说 明了 目录 的 内 容 以 及 如 何 下 载 。 


大 多 数 最 新 的 实现 通常 都 是 以 ciixy.tar.gz 或 ciixy.zip 的 文件 名 存储 
的 ， 其 中 xy 是 版 本 号 ， 例 如 10 是 指 版 本 1.0。ciixy.tar.gz 是 用 gzip 压 缩 的 
UNIX tar 文 件 ， 而 ciixy.zip 是 与 PKZIP 2.04g 版 兼容 的 ZIP 文 件 。ciixy.zip 


中 的 文件 都 是 DOS/Windows 下 的 文本 文件 ， 每 行 均 以 回 车 和 换行 符 结 
束 。ciixy.zip 同 时 也 可 以 在 美国 在 线 、CompuServe 以 及 其 他 在 线 服务 
器 上 下 载 。 


登录 http://wwwi.cs.princeton.edu/software/cii/ 同 样 也 可 以 得 到 相应 
的 信息 。 该 页 面 还 解释 了 如 何 报告 勘误 。 
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第 1 章 引言 


一 个 大 程序 由 许多 小 的 模块 组 成 。 这 些 模块 提供 了 程序 中 使 用 的 
函数 、 过 程 和 数据 结构 。 理 想 情 况 下 ， 这 些 模块 中 大 部 分 都 是 现成 的 
并 且 来 目 于 库 ， 只 有 那些 特定 于 现 有 应 用 程序 的 模块 需要 从 头 开始 纺 
写 。 假 定 库 代 码 已 经 全 面 测 试 过 ， 而 只 有 应 用 程序 相关 的 代码 会 包含 
bug， 那 么 调试 束 可 以 仅 限于 这 部 分 代码 。 


遗憾 的 是 ， 这 种 理论 上 的 理想 情况 实际 上 很 少 出 现 。 大 多 数 程序 
都 是 从 头 开始 编写 ， 它 们 只 对 最 低层 次 的 功能 使 用 库 ， 如 IO 和 内 存 管 
理 。 即 使 对 于 此 类 底层 组 件 ， 程 序 员 也 经 常 编写 特定 于 应 用 程序 的 代 
码 。 例 如 ， 将 C 库 函数 malloc 和 free 准 换 为 定制 的 内 存 管 理 画 数 的 应 用 
程序 也 是 很 常见 的 。 


造成 这 种 情况 的 原因 无 疑 有 诸多 方面 。 其 中 之 一 就 是 ， 很 少 有 哪 
个 普遍 可 用 的 库 包含 了 健壮 、 设 计 良好 的 模块 。 一 些 可 用 的 库 相对 平 
良 ， 缺 少 标 准 。 虽 然 C 库 自 1989 年 已 经 标准 化 ， 但 直至 现在 才 出 现在 
大 多 数 平台 上 。 


另 一 个 原因 是 规模 问题 : 一 些 库 规 模 太 大 ， 从 而 导致 对 库 本 号 功 
能 的 掌握 变 成 了 一 项 沉重 的 任务 。 哪 但 这 项 工作 的 工作 量 似乎 稍 示 于 
编写 应 用 程序 所 需 的 工作 量 ， 程 序 员 可 能 都 会 重新 实现 库 中 他 们 所 需 
的 部 分 功能 。 最 近 出 现 颇 多 的 用 户 界 面 库 ， 通 常会 有 这 种 问题 。 


库 的 设计 和 实现 是 困难 的 。 在 通用 性 、 人 简单 性 和 效率 这 3 个 约束 之 
间 ， 设 计 痢 必须 如 履 薄 冰 ， 审 慎 前 行 。 如 采 库 中 的 例 程 和 数据 结构 过 


于 通用 ， 那 么 库 本 身 可 能 难以 使 用 ， 或 因 效 率 较 低 而 无 法 达到 预定 目 
标 。 如 果 库 的 例 程 和 数据 结构 过 于 人 简单， 又 可 能 无 法 满足 应 用 程序 的 
需求 。 如 采 库 太 难 于 理解 ， 程 序 员 干脆 束 不 会 使 用 它们 。C 库 本 喘 束 
提供 了 一 些 这 样 的 例子 ， 例 如 其 中 的 realloc 函 数 ， 其 语义 混乱 到 令 人 人 
慰 讶 的 地 步 。 


库 的 实现 者 面临 类 似 的 障碍 。 有 即使 设计 做 得 很 好 ， 精 料 的 实现 同 
样 会 吓 跑 用 户 。 如 果 某 个 实现 太 慢 或 太 庞大 ， 或 只 是 感觉 上 如 此 ， 程 
序 员 痢 将 目 行 设计 奉 代 品 。 最 糟 的 是 ， 如 果实 现 有 bug， 它 将 使 上 述 的 
理想 状况 彻 底 破 炙 ， 从 而 使 库 也 变 得 无 用 。 


本 书 摘 述 了 一 个 库 的 设计 和 实现 ， 它 适应 以 C 语 言 编 写 的 各 种 应 
用 程序 的 需求 。 该 库 导 出 了 一 组 模块 ， 这 些 模 块 提 供 了 用 于 小 规模 程 
序 设计 (programming-in-the-small) 的 范 数 和 数据 结构 。 在 几 千 行 长 
的 应 用 程序 或 应 用 程序 组 件 中 ， 这 些 模 块 适 于 用 作 零 部 件 。 


在 后 续 各 章 中 描述 的 大 部 分 编程 工具 ， 都 泣 次 在 大 学 本 科 数 据 绪 
构 和 算法 课程 中 。 但 在 本 书 中 ， 我 们 更 关注 将 这 些 工 具 打 包 的 方式 ， 
以 及 如 何 使 之 健壮 无 错 。 各 个 模块 都 以 一 个 接口 及 其 实现 的 方式 给 
出 。 这 种 设计 方法 学 在 第 2 章 中 进行 了 解释 ， 它 将 模块 规格 说 明 与 其 实 
现 相 分 离 ， 以 提高 规格 说 明 的 清晰 度 和 精确 性 ， 而 这 有 助 于 提供 健壮 
的 实现 。 


1.1 文学 程序 


本 书 并 不 是 以 “技巧 ”的 形式 来 描述 各 个 模块 ， 而 是 通过 例子 描 
述 。 各 章 完 整 描 述 了 一 两 个 接口 及 其 实现 。 这 些 描述 以 文学 程序 


(literate program) 的 形式 给 出 。 接 口 及 其 实现 的 代码 与 对 其 进行 解释 
的 正文 交织 在 一 起 。 更 重要 的 是 ， 各 章 本 身 就 是 其 描述 的 接口 和 实现 
的 源 代码 。 代 码 可 以 从 本 书 的 源 文件 文本 中 自动 提取 出 来 ， 所 见 即 所 


得 。 


文学 程序 由 瑞 文 正文 和 带 标 签 的 程序 代码 块 组 成 。 例 如 ， 
(compute 
x 。y)= 
sum = 0; 


for (i = 0; i < n; i++) 


sum += x[i]*y[i]; 


定义 了 名 为 《compute xey) 的 代码 块 ， 其 代码 计算 了 数组 x 和 y 的 点 
积 。 在 另 一 个 代码 块 中 使 用 该 代码 块 时 ， 直 接 引 用 即 可 : 


(function 
dotproduct) = 
int dotProduct(int x[], int y[], int n) { 
int i, sum; 


(compute 


x 。 y) 


return sum; 


当 (function dotproduct》 代 码 块 从 本 章 对 应 的 源 文件 中 抽取 出 来 时 ， 
将 逐 字 复制 其 代码 ， 用 到 代码 块 的 地 方 都 将 蔡 换 为 对 应 的 代码 。 抽 取 
(function dotproduct》 的 结果 是 一 个 只 包含 下 述 代码 的 文件 : 


int dotProduct(int x[], int y[], int n) { 


int i, sum; 


sum = 0; 
for (i = 0; i < n; i++) 
sum += x[i]*y[i]; 


return sum; 


文学 程序 可 以 按 各 个 小 片段 的 形式 给 出 ， 并 附 以 完备 的 文档 。 英 
文正 文 包含 了 传统 的 程序 注释 ， 这 些 并 不 受 程序 设计 语言 的 注释 规范 
的 限制 。 


代码 块 的 这 种 特性 将 文学 程序 从 编程 语言 强加 的 顺序 约束 中 解放 
出 来 。 代 码 可 以 按 最 适 于 理解 的 顺序 给 出 ， 而 不 是 按 语言 所 硬性 规定 
的 顺序 (例如 ， 程 序 实体 必须 在 使 用 前 定义 ) 。 

本 书 中 使 用 的 文学 编程 系统 还 有 另外 一 些 特 性 ， 它 们 有 助 于 逐 点 
对 程序 进行 描述 。 为 说 明 这 些 特性 并 提供 一 个 完整 的 C 语 言 文学 程序 
的 例子 ， 本 节 其 余部 分 将 描述 double 程 序 ， 该 程序 检测 输入 中 相 邻 的 
相同 单词 ， 如 “the the” ° 


%% double intro.txt inter.txt 


intro.txt:10: the 
inter.txt:110: interface 
inter.txt:410: type 


inter.txt:611: if 


上 述 UNIX 命 令 结果 说 明 , “the”" 在 intro.txt 文 件 中 出 现 了 两 次 ， 第 二 次 
出 现在 第 10 行 ， 而 在 inter.txt 文 件 中 ，interface、type 和 if 也 分 别 在 给 出 
的 行 出 现 第 二 次 。 如 果 调 用 double 时 不 指定 参数 ， 它 将 读 取 标准 输 
入 ， 并 在 输出 时 略 去 文件 名 。 例 如 : 


% cat intro.txt inter.txt | double 


10: the 

143: interface 
343: type 

544: if 


fe Eup ABI, AAPA AO NA RCI, m 
出 则 显示 为 通常 的 代码 体 。 


我 们 先 从 定义 根 代码 块 来 实现 double， 该 代码 块 将 使 用 对 应 于 程 
序 各 个 组 件 的 其 他 代码 块 : 


(double.c 


3) = 


(includes 


4) 
(data 


4) 


(prototypes 


4) 


(functions 


3) 


按照 惯例 ， 根 代码 块 的 标签 设置 为 程序 的 文件 名 ， 提 取 《double.c 3) 
代码 块 ， 即 可 提取 整个 程序 。 其 他 代码 块 的 标签 设置 为 double 的 各 个 
顶层 组 件 名 。 这 些 组 件 按 C 语 言 规定 的 顺序 列 出 ， 但 也 可 以 按 任意 顺 
序 给 出 。 


《double.c3》 中 的 3 是 页 码 ， 表 示 该 代码 块 的 定义 从 书 中 哪 一 页 
开始 。 《double.c3》 中 使 用 的 代码 块 中 的 数字 也 十 页 码 ， 表 示 该 代码 
块 的 定义 从 书 中 哪 一 页 开始 。 这 些 页 码 有 助 于 读者 浏览 代码 时 定位 。 


main EX žit “hb FR double I BM ce ESTHET MEA, HUA 
doubleword 扫 摘 文 件 : 


(functions 


3) = 


int main(int argc, char *argv[]) { 


int 1; 


for (i = 1; i < argc; i++) { 
FILE *fp = fopen(argv[i], "r"); 
if (fp == NULL) { 
fprintf(stderr, "%s: can't open '%s' (%s)\n", 
argv[0], argv[i], strerror(errno)); 


return EXIT_FAILURE; 


} else { 
doubleword(argv[i], fp); 
fclose(fp); 


} 
if (argc == 1) doubleword(NULL, stdin); 
return EXIT_SUCCESS,; 


(includes 


4) = 
#include <stdio.h> 
#include <stdlib.h> 


#include <errno.h> 


doubleword 画 数 需要 从 文件 中 读 取 单 词 。 对 于 该 程序 来 说 ， 一 个 
单词 由 一 个 或 多 个 非 空 格 字符 组 成 ， 不 区 分 大 小 写 。getword 从 打开 的 
文件 读 取 下 一 个 单词 ， 复 制 到 buf [0..size-1] 中 ， 并 返回 1;， 在 到 达 文 件 
末尾 时 该 函数 返回 0。 


(Functions 
3) += 


int getword(FILE *fp, char *buf, int size) { 


int c; 


c = getc(fp); 


(scan forward to a nonspace character or EOF 


5) 


(copy the word into 
buf [0..size-1] 5) 
if (c != EOF) 
ungetc(c, fp); 


return (found a word? 


5) ; 


(prototypes 


4) = 


int getword(FILE *, char *, int); 


ARER T AP PE: 代码 块 标签 《functions 3) 后 接 
的 += 表 示 将 getword 的 代码 附加 到 代码 块 《junctions 3》 的 代码 的 后 
面 ， 因 此 该 代码 块 现在 包含 main 和 getword 的 代码 。 该 特性 允许 分 为 多 
次 定义 一 个 代码 块 中 的 代码 ， 每 次 定义 一 部 分 。 对 于 一 个 “接续 ”代码 
块 来 说 ， 其 标签 中 的 页 码 指 问 该 代码 块 的 第 一 次 定义 处 ， 因 此 很 容易 
找到 代码 块 定 义 的 开始 处 。 


为 getword 在 main 之 后 定义 ， 在 main 中 调用 getword 时 就 需要 一 
AERE, AM (prototypes 4 代码 块 的 用 处 。 该 代码 块 在 一 定 程 度 
上 是 对 C 语 言 “ 先 声明 后 使 用 ” (declaration-before-use) 规则 的 让 步 ， 
但 如 果 该 代码 定义 得 一 致 并 在 根 代码 块 中 出 现在 《junctions 3〉 之 前 ， 
那么 函数 可 以 按 任 何 顺序 给 出 。 


getword 除 了 从 输入 获取 下 一 个 单词 之 外 ， 每 当 壳 到 一 个 换行 字符 
时 都 对 linenum 加 1。doubleword 输 出 时 将 使 用 linenum ° 


(data 


4) = 


int linenum; 


(scan forward to a nonspace character or EOF 


5) = 


for ( ; c != EOF && isspace(c); c = getc(fp)) 


i (eS) 


linenum++; 


(includes 


4) += 


#include <ctype.h> 


linenum 的 定义 ， 也 例证 了 代码 块 的 顺序 不 必 与 C 语 言 的 要 求 相 
同 。linenum 在 其 第 一 次 使 用 时 定义 ， 而 不 是 在 文件 的 顶部 或 getword 
定义 之 前 ， 后 两 种 做 法 才 是 合乎 C 语 言 要 求 的 。 


size 的 值 限 制 了 getword 所 能 存储 的 单词 的 长 度 ，getword 函 数 会 丢 
弃 过 多 的 字符 并 将 大 写字 母 转换 为 小 写 : 


(copy the word into 


buf[@..size-1] 5) = 
{ 
int 1 = 0; 
for ( ; c != EOF && !isspace(c); c = getc(fp)) 
if (i < size - 1) 
buf[i++] = tolower(c); 
if (1 < size) 


buf[i] = '\o'; 


索引 i 与 size-1 进 行 比较 ， 以 保证 单词 末尾 有 空间 存储 一 个 空 字 符 。 在 
size 为 0 时 ， 计 语句 保护 了 对 缓存 的 赋值 操作 。 在 double 中 不 会 出 现 这 种 
情况 ， 但 这 种 防 性 程序 设计 (defensive programming) 有 助 于 捕获 “不 
可 能 发 生 的 bug”。 


剩 下 的 代码 逻辑 是 ， 如 果 buf 中 保存 了 一 个 单词 则 返回 1， 人 否则 返 
回 0: 


(found a word? 


5) = 
buf[@] != '\o! 


该 定义 表明 ， 代 码 块 不 必 对 应 于 C 语 言 中 的 语句 或 任何 其 他 语法 单 
位 ， 代 码 块 只 是 文本 而 已 。 


doubleword 读 取 各 个 单词 ， 并 将 其 与 前 一 个 单词 比较 ， 发 现 重复 
时 输出 。 它 只 查看 以 字母 开头 的 单词 : 


(functions 


3) += 
void doubleword(char *name, FILE *fp) { 


char prev[128], word[128]; 


linenum = 1; 
prev[O] = '\O'; 


while (getword(fp, word, sizeof(word)) { 


if (isalpha(word[0]) && strcmp(prev, word)==0) 


(word is a duplicate 


6) 
strcpy(prev, word); 
} 
} 
(prototypes 
4) += 
void doubleword(char *, FILE *); 
(includes 
4) += 


#include <string.h> 


ERE 


输出 是 很 容易 的 ， 但 仅 当 name 不 为 NULL 时 才 输 出 文件 名 及 后 接 的 冒 


(word is a duplicate 


O 
~ 一 
lll 


if (name) 


printf("%s:", name); 


printf("%d: %s\n", linenum, word); 


} 


该 代码 块 被 定义 为 一 个 复合 语句 ， 因 而 可 以 作为 结果 用 在 它 所 处 的 放 
语句 中 。 


1.2 程序 设计 风格 


double 说 明了 本 书 中 程序 所 使 用 的 风格 惯例 。 程 序 能 否 更 容易 被 
阅读 并 理解 ， 比 使 程序 更 容易 被 计算 机 编译 更 为 重要 。 编 译 右 并 不 在 
意 变 量 的 名 称 、 代 码 的 布局 或 程序 的 模块 划分 方式 。 但 这 种 细 世 对 程 
序 员 阅读 以 及 理解 程序 的 难 易 程度 有 很 大 影响 。 


本 书 代 码 遵 循 C 程 序 的 一 些 既 定 的 风格 惯例 。 它 使 用 一 致 的 惯例 
来 命名 变量 、 类 型 和 例 程 ， 并 在 本 书 的 排版 约定 下 ， 采 用 一 致 的 缩 进 
风格 。 风 格 惯例 并 非 是 一 种 必须 遵循 的 刚性 规则 ， 它 们 表示 的 是 程序 
设计 的 一 种 哲学 方法 ， 力 求 最 大 限度 地 增加 程序 的 可 读 性 和 可 理解 
性 。 因 而 ， 凡 是 改变 惯例 能 有 助 于 强调 代码 的 重要 方面 或 使 复杂 的 代 
码 更 可 读 时 ， 你 完全 可 以 违反 “规则 ”。 


一 般 来 说 ， 较 长 且 富 于 语义 的 名 称 用 于 全 局 变量 和 例 程 ， 而 数学 
符号 般 的 短 名 称 则 用 于 局 部 变量 。 代 码 块 《compute xey) FWAR 
引 i 属于 后 一 种 惯例 。 对 索引 和 变量 使 用 较 长 的 名 称 通常 会 使 代码 更 难 
阅读 ， 例 如 下 述 代码 中 


sum = 0; 


for (theindex = 0; theindex < numofElements; theindex++) 


sum += x[theindex]*y[theindex]; 


长 变量 名 反而 使 代码 的 语义 含混 不 清 。 


变量 的 声明 应 该 靠近 于 其 第 一 次 使 用 的 地 方 (可 能 在 代码 块 
H) 。linenum 的 声明 很 靠近 在 getword 中 首次 使 用 该 变量 的 地 方 ， 这 
瓯 是 个 例子 。 在 可 能 的 情况 下 ， 局 部 变量 的 声明 在 使 用 变量 的 复合 语 
句 的 开始 处 。 例 如 ， 代 码 块 《copy the word into buf[0..size-1] 5) XTi 
的 声明 。 


一 般 来 说 ， 过 程 和 画 数 的 名 称 ， 应 能 反映 过 程 完成 的 工作 及 郴 数 
的 返回 值 。 因 而 ，getword 应 当 返 回 输入 中 的 下 一 个 单词 ， 而 
doubleword 则 找到 并 显示 出 现 两 次 或 更 多 次 的 单词 。 大 多 数 例 程 都 比 
较 人 简单 ， 不 会 超过 一 页 代码 ， 代 码 块 更 短 ， 通 常 少 于 12 行 。 


代码 中 几乎 没有 注释 ， 因 为 围绕 对 应 代码 块 的 正文 代替 了 注释 。 
有 关注 释 风 格 的 建议 几乎 会 引发 程序 员 间 的 战争 。 本 书 将 效法 C 程 序 
设计 方面 的 典范 ， 最 低 限 度 地 使 用 注释 。 如 末代 码 很 清晰 ， 且 使 用 了 
民 好 的 命名 和 缩 进 惯例 ， 则 这 样 的 代码 通常 是 含义 目 明 的 。 仅 当 进 行 
解释 时 (例如 ， 解 释 数 据 结构 的 细 方 、 算 法 的 特例 以 及 异常 情况 ) 才 
需要 注释 。 编 译 佑 无 法 检查 注释 是 否 与 代码 一 致 ， 误 导 的 注释 通常 比 
没有 注释 更 糟糕 。 最 后 ， 有 些 注 释 只 不 过 是 一 种 干扰 ， 其 中 的 噪音 和 
过 多 的 版 式 掩 盖 了 注释 内 容 ， 从 而 使 这 些 注释 只 会 掩盖 代码 本 里 的 合 
Wo 


文学 编程 避免 了 注释 战争 中 的 许多 争论 ， 因 为 它 不 受 程序 设计 语 
言 注释 机 制 的 约束 。 程 序 员 可 以 使 用 最 适合 于 表达 其 意图 的 任何 版 式 


等 性， 如 表 、 方 程 、 图 片 和 引文 。 文 学 编程 似乎 提倡 准确 、 精 确 和 请 
W ° 


本 书 中 的 代码 以 C 语 言 编写 ， 它 所 使 用 的 大 多 数 惯用 法 通常 已 被 
有 经 验 的 C 程 序 员 所 接受 并 布 望 采用 。 其 中 一 些 惯用 法 可 能 使 不 熟悉 C 
语言 的 程序 员 困 惑 ， 但 为 了 能 用 C 语 言 流利 地 编程 ， 程 序 员 必须 掌握 
这 些 惯用 法 。 涉 及 指针 的 惯用 法 通常 是 最 令 人 困惑 的 ， 因 为 C 语 言 大 
指针 的 操作 提供 了 几 种 独特 且 富有 表达 力 的 运算 符 。 库 函数 strcpy 将 一 
个 子 符 串 复制 到 男 一 个 字符 串 中 并 返回 目标 字符 串 ， 对 该 函数 的 不 同 
实现 整 说 明了 “地 道 的 C 语 言 ”? 和 新 手 C 程 序 员 编 写 的 代码 之 间 的 差别 ， 
后 一 种 代码 通常 使 用 数组 : 


char *strcpy(char dst[], const char src[]) { 


int 1; 


for (i = 0; src[i] != '\O'; i++) 
dst[i] = src[i]; 

dst[i] = '\0'; 

return dst; 


} 
“地 道 ”的 版 本 则 使 用 指针 : 


char *strcpy(char *dst, const char *src) { 


char *s = dst; 


while (*dst++ = *srct+) 


了 


return s; 


} 


1X PA “SAR EB E strepy Hi AEK Fer ET Fg AS 8 H E A A i H A KEA 
值 、 指 针 递 增 和 测试 赋值 操作 的 结果 合并 为 单一 的 赋值 表达 式 。 它 还 
修改 了 其 参数 dst 和 src， 这 在 C 语 言 中 是 可 接受 的 ， 因 为 所 有 参数 都 是 
传 值 的 ， 实 际 上 参数 只 不 过 是 已 初始 化 的 局 部 变量 。 


还 可 以 举 出 很 好 的 例子 ， 来 表明 使 用 数组 版 本 比 指针 版 本 更 好 。 
例如 ， 所 有 程序 员 都 更 容易 理解 数组 版 本 ， 无 论 他 们 能 否 使 用 C 语 言 
流畅 地 编程 。 但 指针 版 本 是 最 有 经 验 的 C 程 序 员 会 编写 的 那 种 代码 ， 
因而 程序 员 阅 读 现存 代码 时 最 有 可 能 过 到 它 。 本 书 可 以 帮助 读者 学 习 
这 些 惯用 法 、 理 解 C 语 言 的 优点 并 避免 易 犯 的 错误 。 


1.3 ”效率 


程序 员 似 乎 被 效率 问题 困扰 着 。 他 们 可 能 伦 费 数 小 时 来 微调 代 
码 ， 使 之 运行 得 更 快 。 遗 憾 的 是 ， 大 部 分 这 种 工作 都 是 无 用 功 。 当 猜 
测 程序 的 运行 时 间 花 费 在 何 处 时 ， 程 序 员 的 直 沉 非常 精 料 。 


微调 程序 是 为 了 使 之 更 快 ， 但 通常 忌 是 会 使 之 更 大 、 更 难 理解 、 
更 可 能 包 合 错误 。 除 非 对 执行 时 间 的 测量 表明 程序 太 慢 ， 否 则 这 样 的 
微调 没有 意义 。 程 序 只 需要 足够 快 即 可 ， 不 一 定 要 尽 可 能 快 。 


微调 通 营 在 “真空 ”中 完成 。 如 末 一 个 程序 太 慢 ， 找 到 其 瓶 贷 的 唯 
一 途径 就 古 测量 它 。 程 序 的 瓶 贷 很 少 出 现在 预期 位 置 或 者 是 因 你 所 怀 
疑 的 原因 导致 ， 而 且 在 错误 位 置 上 微调 程序 是 没有 意义 的 。 在 找到 正 


确 的 位 置 后 ， 仅 当 该 处 花费 的 时 间 确 实 占 运行 时 间 的 很 大 比例 时 ， 才 
有 必要 进行 微调 。 如 果 1O 占 了 程序 运行 时 间 的 60%， 在 搜索 例 程 中 市 
省 1% 是 无 意义 的 。 


微调 通常 会 引入 错误 。 最 快 朋 并 的 程序 绝 非 胜 者 。 可 靠 性 比 效率 
更 重要 ;与 交付 足够 快 的 可 靠 软 件 相 比 ， 交 付 快 速 但 会 月 溃 的 软件 ， 
从 长 远 看 来 代价 更 高 。 

微调 经 常 在 错误 的 层次 上 进行 。 快 速算 法 的 直接 简明 的 实现 ， 比 
慢 速 算法 的 手工 微调 实现 要 好 得 多 。 例 如 ,减少 线 性 查找 的 内 层 循环 
的 指令 数 ， 注 定 不 如 直接 使 用 二 分 查找 。 


微调 无 法 修复 低劣 的 设计 。 如 果 程 序 到 处 都 慢 ， 这 种 低 效 很 可 能 
征 设 计 导 致 的 。 当 基于 编写 得 很 糟 糙 或 不 精确 的 问题 谤 明 给 出 设计 
时 ,或 者 根本 就 没有 忌 体 设 计时 ， 束 会 发 生 这 种 令 人 遗憾 的 情况 。 


本 书 中 大 部 分 代码 都 使 用 了 高 效 的 算法 ， 具 有 民 好 的 平均 情况 性 
能 ， 其 最 坏 情形 性 能 也 易于 概括 。 对 大 多 数 应 用 程序 来 说 ， 这 些 代码 
对 典型 输入 的 执行 时 间 总 是 足 够 快速 的 。 当 某 些 程序 的 代码 性 能 可 能 
会 导致 问题 时 ， 书 中 目 会 明确 注 明 。 


一 些 C 程 序 员 在 寻求 提高 效率 的 途径 时 ， 大 量 使 用 安 和 条 件 编 
译 。 只 要 有 可 能 ， 本 书 将 避免 使 用 这 两 种 方法 。 使 用 宏 来 避免 函数 调 
用 基本 上 是 不 必要 的 。 仅 当 客 观 的 测量 结果 表明 有 问题 的 调用 的 开销 
大 大 超出 其 余 代 码 的 运行 时 间 时 ， 使 用 安 才 有 意义 。 操 作 MO 是 较 适 宜 
采用 宏 的 少数 情况 之 一 。 例 如 ， 标 准 的 VO 函数 getc、putc、getchar 和 
putchar 通 常 实现 为 宏 。 


条 件 编译 通常 用 于 配置 特定 平台 或 环境 的 代码 ， 或 者 用 于 代码 调 
试 的 启用 /禁用 。 这 些 问 题 是 实际 存在 的 ， 但 条 件 编译 通常 只 是 解决 问 
题 的 较为 容易 的 方法 ， 而 且 总 会 使 代码 更 难于 阅读 。 而 重 写 代码 以 便 
在 执行 期 间 选 择 平 侣 依赖 关系 通 单 则 更 为 有 用 。 例 如 ， 一 个 编译 禹 可 
以 在 执行 时 选择 多 种 《比如 说 6 种 ) 体系 结构 中 的 一 个 来 生成 代码 ， 这 
样 的 一 种 交叉 编译 硕 要 比 必 须 配 置 并 搭建 6 个 不 同 的 编译 器 更 有 用 ， 而 
且 可 能 更 易于 维护 。 


如 果 应 用 程序 必须 在 编译 时 配置 ， 与 C 语 言 的 条 件 编译 工具 相 
比 ， 版 本 控制 工具 更 擅长 完成 该 工作 。 这 样 ， 代 码 中 整 不 必 充 不 着 预 
处 理 占 指令 ， 因 为 那 会 使 代码 难于 阅读 ， 并 模糊 被 编译 和 未 被 编译 的 
代码 之 间 的 界限 。 使 用 版 本 控制 工具 ， 你 看 到 的 代码 即 为 被 执行 的 代 
码 。 对 于 跟踪 性 能 改进 情况 来 说 ， 这 些 工具 也 是 理想 的 选择 。 


1.4 扩展 阅读 


对 于 标准 C 库 来 说 ，ANSI 标 准 [ANSI 1990] 和 技术 上 等 效 的 ISO 标 
准 [ISO 1990] 是 权威 的 参考 文献 ， 但 [Plauger，1992] 一 书 给 出 了 更 详细 
的 描述 和 完整 的 实现 。 同 样 ，C 语 言 相关 问题 的 定论 就 在 于 这 些 标 
准 ， 但 [Kernighan and Ritchie ，1988] 一 书 却 可 能 是 最 广 为 使 用 的 参 
Æ o [Harbison and Steele，1995] 一 书 的 最 新 版 本 或 许 是 C 语 言 标 准 的 最 
新 的 资料 ， 它 还 描述 了 如 何 编写 “干净 的 C”"， 即 可 以 用 C++ 编 译 嚣 编译 
的 C 代 码 。[Jaeschke，1991] 一 书 将 标准 C 语 言 的 精华 浓缩 为 紧 竣 的 词 
典 格式 ， 这 份 资料 对 C 程 序 员 来 说 也 很 有 用 。 


[Kernighan and Plauger，1976] 一 书 给 出 了 文学 程序 的 早期 例子 ， 
当然 作者 对 文学 编程 没 太 多 认识 ， 只 是 使 用 了 专门 开发 的 工具 将 代码 


集成 到 书 中 。WEB 和 是 首 批 明确 为 文学 编程 设计 的 工具 之 一 。[Knuth ， 
1992] 一 书 摘 述 了 WEB 和 它 的 一 些 变 体 及 用 法 ，[Sewell，1989] 一 书 十 
WEB 的 入 门 介绍 。 更 简单 的 工具 ([Hanson, 1987], [Ramsey , 
1994]) 发 展 了 很 长 时 间 才 提供 WEB 的 大 部 分 基本 功能 。 本 书 使 用 
notangle 来 提取 代码 块 ， 它 是 Ramsey 的 noweb 系 统 中 的 程序 之 一 。 
[Fraser and Hanson，1995] 一 书 也 使 用 了 noweb ， 该 书 以 文学 程序 的 形 
式 给 出 了 一 个 完整 的 C 语 言 编 译 器 。 该 编译 事 也 是 一 个 交叉 编译 器 。 


double 取 自 [Kernighan and Pike，1984]， 在 该 书 中 double 是 用 AWK 
[Aho, Kernighan and Weinberger ，1988] 程 序 设计 语言 实现 的 。 尽 管 年 
龄 老 迈 ， 但 [Kernighan and Pike，1984] 仍 然 是 UNIX 程 序 设计 大学 方面 
的 最 佳 书籍 之 一 。 


学 习 展 好 的 程序 设计 风格 ， 最 好 的 方法 是 阅读 风格 民 好 的 程序 。 
本 书 将 遵循 [Kernighan and Pike，1984] 和 [Kernighan and Ritchie, 1988] 
中 的 风格 ， 这 种 风格 经 久 而 不 嘉 。[Kernighan and Plauger，1978] 一 书 
是 程序 设计 风格 方面 的 经 典 著作 ， 但 该 书 并 不 包含 C 语 言 的 例子 。 
Ledgard 的 小 书 [Ledgard，1987] 提 供 了 类 似 的 建议 ， 而 [Maguire，1993] 
从 PC 程序 设计 的 角度 阐述 了 程序 设计 风格 问题 。[Koenig，1989] 一 书 
雄 露 的 C 语 言 的 黑暗 角落 ， 强 调 了 那些 应 该 避免 的 东西 。[McConnell， 
1993] 一 书 在 与 程序 构建 相关 的 许多 方面 提供 了 明智 的 建议 ， 并 针对 使 
用 goto 语 名 的 利 束 两 方面 进行 了 不 俩 不 倚 的 讨论 。 


学 习 编 写 高 效 的 代码 ， 最 好 的 方法 是 在 算法 方面 有 扎实 的 基础 ， 
并 阅读 其 他 高 效 的 代码 。[Sedgewick，1990] 一 书 纵览 了 大 多 数 程序 员 
都 必须 知道 的 所 有 重要 算法 ， 而 [Knuth，1973a] 一 书 对 算法 基础 进行 
了 至 为 详细 的 讨论 。[Bentley，1982] 一 书 有 170 页 ， 给 出 了 编写 高 效 代 
码 方面 的 一 些 有 益 的 建议 和 和 常识 。 


15 习题 


1.1 在 一 个 单词 结束 于 换行 人 符 时 ，getword 在 《scan forward to a 
nonspace or EOF 5〉 代 码 块 中 将 linenum 加 1， 而 不 是 在 《copy the word 
into buf[0..size-1] 5》 代 人 码 块 之 后 。 解 释 这 样 做 的 原因 。 如 采 在 本 例 
中 ，linenum 的 加 1 操作 是 在 《copy the word into buf[0..size-1] 5) 代码 
块 之 后 进行 ， 会 发 生 什 么 情况 ? 


12 当 double 在 输入 中 发 现 3 个 或 更 多 相同 单词 时 会 显示 什么 ? 修 
改 double 来 改 掉 这 个 “特性 ”。 


13 许多 有 经 验 的 C 程 序 员 会 在 strcpy 的 循环 中 加 入 一 个 显 式 的 比 
较 操 作 : 


char *strcpy(char *dst, const char *src) { 


char *s = dst; 


while ((*dst++ = *src++) != '\O') 
return s; 


i 
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Gimpel Software 的 PC-Lint 和 LCLint[Evans，1996]， 在 发 现 赋值 操作 的 
结果 用 作 条 件 表达 式 时 会 发 出 警告 ， 因 为 这 种 用 法 是 一 个 常见 的 错误 
来 源 。 如 果 读 者 有 PC-Lint 或 LCLint， 可 以 在 一 些 “ 测 试 ” 过 的 程序 上 进 
行 试验 。 


第 2 章 ”接口 与 实现 


模块 分 为 两 个 部 分 ， 即 模块 的 接口 与 实现 。 接 口 规定 了 模块 做 什 
么 。 接 口 会 声明 标识 符 、 类 型 和 例 程 ， 提 供给 使 用 模块 的 代码 。 实 现 
指明 模块 如 何 完 成 其 接口 规定 的 目标 。 对 于 给 定 的 模块 ， 通 常 只 有 一 
个 接口 ， 但 可 能 有 许多 实现 提供 了 接口 规定 的 功能 。 每 个 实现 可 能 使 
用 不 同 的 算法 和 数据 结构 ， 但 它们 都 必须 合乎 接口 的 规定 。 


客户 程序 (client) 是 使 用 模块 的 一 段 代 码 。 客 户 程序 导入 接口 ， 
实现 则 导出 接口 。 客 户 程 序 只 需要 看 到 接口 即 可 。 实 际 上 ， 它 们 可 能 
只 有 实现 的 目标 码 。 多 个 客户 程序 共 至 接口 和 实现 ， 因 而 避免 了 不 必 
要 的 代码 重复 。 这 种 方法 学 也 有 助 于 避免 pug， 接 口 和 实现 编写 并 调试 
一 次 后 ， 可 以 经 党 使 用 。 


2.1 接口 


接口 仅 规定 客户 程序 可 能 使 用 的 那些 标识 符 ， 而 尽 可 能 隐藏 不 相 
天 的 表示 细节 和 算法 。 这 有 助 于 客户 程序 避免 依赖 特定 实现 的 具体 细 
放 。 客 户 程序 和 实现 之 间 的 这 种 依赖 性 称 之 为 耦合 (coupling) ， 在 实 
现 改 变 时 耦合 会 导致 bug， 当 依赖 性 被 与 实现 相关 的 隐藏 或 隐 含 的 假定 
掩 兽 时 ， 这 种 bug 可 能 会 特别 难于 改正 。 设 计 完 善 且 陈述 准确 的 接口 可 
以 减少 耦合 。 


对 于 接口 与 实现 相 分 离 ，C 语 言 只 提供 了 最 低 限 度 的 支持 ， 但 通 
过 一 些 简单 的 约定 ， 我 们 即 可 获得 接口 /实现 方法 学 的 大 多 数 好 处 。 在 
C 语 言 中 ， 接 口 通过 一 个 头 文件 指定 ， 头 文件 的 扩展 名 通常 为 hn。 这 个 
头 文件 会 声明 客户 程序 可 能 使 用 的 宏 、 类 型 、 数 据 结构 、 变 量 和 例 
程 。 客 户 程 序 用 C 预 处 理 器 指令 #include 导 入 接口 。 


以 下 例子 说 明了 本 书 中 的 接口 使 用 的 约定 。 下 壕 接口 


(arith.h 


y= 
extern int Arith_max(int x, int y); 
extern int Arith_min(int x, int y); 
extern int Arith_div(int x, int y); 
extern int Arith_mod(int x, int y); 
extern int Arith_ceiling(int x, int y); 


extern int Arith_floor (int x, int y); 


声明 了 6 个 整数 算术 运算 函数 。 该 接口 的 实现 需要 为 上 述 每 一 个 函数 所 
PERE DG 


该 接口 命名 为 Arith ， 接 口头 文件 命名 为 arithh。 在 接口 中 ， 接 口 
名 称 表 现 为 每 个 标识 符 的 前 缀 。 这 种 约定 并 不 优美 ， 但 C 语 言 儿 乎 没 
有 提供 其 他 备 选 方案 。 所 有 文件 作用 域 中 的 标识 符 ， 包 括 变量 、 画 
数 、 类 型 定义 和 枚 举 常 数 ， 都 共享 同一 个 命名 空间 。 所 有 的 全 局 结 
构 、 联 合 和 枚 举 标 记 则 共享 男 一 个 命名 空间 。 在 一 个 大 程序 中 ， 在 本 
来 无 天 的 模块 中 ， 很 容易 使 用 同一 名 称 表示 不 同 的 目的 。 避 人 免 这 种 名 
称 冲 突 (name collision) 的 一 个 方法 是 使 用 前 级 ， 如 模块 名 。 一 个 大 


程序 很 容易 有 数 千 全 局 标识 符 ， 但 通 营 只 有 儿 百 个 模块 。 模 块 名 不 仅 
提供 了 适当 的 前 缀 ， 还 有 助 于 使 客户 程序 代码 文档 化 。 


Arith 接 口中 的 函数 提供 了 标准 C 库 缺失 的 一 些 有 用 功能 ， 并 对 除 
法 和 模 运 算 提 供 了 民 定 义 的 结 采 ， 而 标准 则 将 这 些 操 作 的 行为 规定 为 
未 定义 (undefined) 或 由 具体 实现 来 定义 (implementation- 
defined ) 
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值 。 


Arith_div 返 回 x 除 以 y 获 得 的 商 ， 而 Arith_ mod 则 返回 对 应 的 余数 。 
当 x 和 y 都 为 正 或 都 为 负 时 ，Arith_div(x,y) 等 于 x/y， 而 Arith_mod(x,y) 等 
于 x%y。 然 而 当 两 个 操作 数 符 号 不 同时 ， 由 C 语 言 内 建 运算 符 所 得 出 的 
返回 值 取决 于 具体 编译 器 的 实现 。 当 y 为 零 时 ，Arith_divr 和 Arith_mod 
的 行为 与 x/y 和 x%y 相 同 。 


C 语 言 标准 只 是 强调 ， 如 果 x/y 是 可 表示 的 ， 那 么 (x/y)*yt+x%y 必 须 
等 于 x。 当 一 个 操作 数 为 负数 时 ， 这 种 语义 使 得 整数 除法 可 以 向 零 舍 
入 ， 也 可 以 向 负 无 穷 大 舍 和 信 。 例 如 ， 如 果 -13/5 的 结果 定义 为 -2， 那 么 
标准 指出 ，-13%5 必 须 等 于 -13-(-13/5)*5=-13-(-2)*5=-3。 但 如 果 -13/5 定 
义 为 3， 那么 -13%5 的 值 必须 是 -13-(-3)*5=2。 


因而 内 建 的 运算 符 只 对 正 的 操作 数 有 用 。 标准 库 函 数 div 和 ldiv 以 
两 个 整数 或 长 整数 为 输入 ， 并 计算 二 者 的 商 和 余数 ， 在 一 个 结构 的 
duot 和 rem 字 段 中 返回 。 这 两 个 函数 的 语义 是 良 定义 的 : 它们 总 是 向 零 
舍 入 ， 因 此 div(-13,5).quot 总 是 等 于 -2。Arith_divr 和 Arith_mod 同 样 是 展 


TEN o ETL MERAH AIBA, SHR SHAN ae 
入 ， 当 其 符号 不 同时 间 负 无 穷 大 伟人 ， 因 此 Arith_div(-13,5) 返 回 -3。 


Arith_div 和 Arith_ mod 的 定义 可 以 用 更 精确 的 数学 术语 来 表达 。 
Arith_div(xy) 定 义 为 不 超过 实数 z 的 最 大 整数 ， 而 zxy=x。 因 而 ， 对 
x=-13 和 y=5 (或 者 x=13 和 y=-5) ，z 为 -2.6， 因 此 Arith_div(-13,5) 为 -3。 
Arith_mod(x,y) Œ 0A F x-y*Arith_div(x,y) , [Al JH Arith_mod(-13,5) 
为 -13-5*(-3)=2 ° 


Arith_ceiling 和 Arith_floor 函 数 遵循 类 似 的 约定 。Arith_ceiling(x,y) 
返回 不 小 于 x/y 的 实数 商 的 最 小 整数 ， 而 Arith_floor(x,y) 返 回 不 大 于 x/y 
的 实数 商 的 最 大 整数 。 对 所 有 操作 数 x 和 y 来 说 ，Arith_ceiling 返 回 数 轴 
在 xiy 对 应 点 右 侧 的 整数 ， 而 Arith_floor 返 回 xy 对 应 点 左 侧 的 整数 。 例 
如 : 


Arith_ceiling( 13,5) = 13/5 = 2.6 = 
Arith_ceiling(-13,5) =-13/5 = -2.6 = - 
Arith_floor ( 13,5) = 13/5 = 2.6 = 
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Arith_floor (-13,5) =-13/5 = -2.6 = - 


即便 简单 如 Arith 这 种 程度 的 接口 仍然 需要 这 么 费劲 的 规格 说 明 ， 
但 对 大 多 数 接口 来 说 ，Arith 的 例子 很 有 代表 性 和 必要 性 (REAR 
R) 。 大 多 数 编程 语言 的 语义 中 都 包含 漏洞 ， 某 些 操作 的 精确 含义 定 
义 得 不 明确 或 根本 未 定义 。C 语 言 的 语义 充满 了 这 种 漏洞 。 设 计 完 善 
的 接口 会 塞 住 这 些 漏 洞 ， 将 未 定义 之 处 定义 完善 ， 并 对 语言 标准 规定 
为 未 定义 或 由 具体 实现 定义 的 行为 给 出 明确 的 裁决 。 


Arith 不 仅 是 一 个 用 来 显示 C 语 言 缺陷 的 人 为 范例 ， 它 也 是 有 用 
的 ， 例 如 对 涉及 模 运 算 的 算法 ， 束 像 是 哈 希 表 中 使 用 的 那些 算法 。 假 
定 i 从 零 到 N-1， 其 中 N 大 于 1， 并 对 i 加 1 和 i 减 1 的 结果 模 N。 即 ， 如 果 i 
为 N-1，i+1 为 0， 而 如 果 i 为 0，i-1 为 N-1。 下 述 表 达 式 


1 = Arith_mod(i + 1, N); 


1 = Arith_mod(i - 1, N); 


正确 地 对 i 进 行 了 加 1 模 N 和 减 1 模 N 的 操作 。 表 达 式 i=(i+1D%N 可 以 工 
作 ， 但 i=(i-1)%N 无 法 工作 ， 因 为 当 i 为 0 时 ，(i-1)%N 可 能 是 -1 或 N-1。 
程序 员 在 (-1)%N 返 回 N-1 的 计算 机 上 可 以 使 用 (i-1)%N， 但 如 果 依 赖 这 
种 由 具体 实现 定义 的 行为 ， 那 么 在 将 代码 移植 到 (-1)%N 返 回 -1 的 计算 
机 上 时 ， 残 可 能 遭遇 到 非常 出 人 和 意 料 的 行为 。 库 函数 div(xy) 也 无 济 于 
事 。 它 返回 一 个 结构 ， 其 quot 和 rem 字 段 分 别 保存 xy 的 商 和 余数 。 在 i 
HAN, div(i-1, N).rem 总 是 -1。 使 用 i=(i-1+N)%N 是 可 以 的 ， 但 仅 当 i- 
1+N 不 造成 洲 出 时 才 行 。 


2.2 ”实现 


实现 会 导出 接口 。 它 定义 了 必要 的 变量 和 函数 ， 以 提供 毛 口 规定 
的 功能 。 实 现 具体 解释 了 接口 的 语义 ， 并 给 出 其 表示 细 市 和 算法 ， 但 
在 理想 情况 下 ， 客 户 程 序 从 来 都 不 需要 看 到 这 些 细 节 。 不 同 的 客户 程 
序 可 以 共享 实现 的 目标 码 ， 通 常 是 从 〈 动 态 ) 库 加 载 实现 的 目标 码 。 


一 个 接口 可 以 有 多 个 实现 。 只 要 实现 遵循 接口 的 规定 ， 完 全 可 以 
在 不 影响 客户 程序 的 情况 下 改变 实现 。 例 如 ， 不 同 的 实现 可 能 会 提供 
更 好 的 性 能 。 设 计 完 侠 的 接口 会 避免 对 特定 机 右 的 依赖 ， 但 也 可 能 强 


制 实现 依赖 于 机 器 ， 因 此 对 用 到 接口 的 每 种 机 右 ， 可 能 都 需要 一 个 不 
同 的 实现 (也 可 能 是 实现 的 一 部 分 ) 来 支持 。 


在 C 语 言 中 ， 一 个 实现 通过 一 个 或 多 个 .c 文 件 来 提供 。 实 现 必须 提 
供 其 导出 的 接口 规定 的 功能 。 实 现 会 包含 接口 的 .bh 文件 ， 以 确 人 其 定 
义 与 接口 的 声明 一 致 。 但 除 此 之 外 ，C 语 言 中 没有 其 他 语言 机 制 来 检 
查实 现 与 接口 是 否 符合 。 


如 同 本 书 中 的 接口 ， 本 书 描述 的 实现 也 具有 一 种 风格 化 的 格式 ， 
如 arith.c 所 示 : 


(arith.c 
》 三 
#include "arith.h" 
(arith.c functions 
14) 
(arith.c functions 
14) = 


int Arith_max(int x, int y) { 


return x> y ? X i y; 


int Arith_min(int x, int y) { 


return x > y? y i X; 


} 


除了 《arith.c functions 14) ， 更 复杂 的 实现 可 能 包含 名 为 《data ) ` 
(types) ` macros) ` (prototypes) 等 的 代码 块 。 在 不 会 造成 混 
消 时 ， 代 码 块 中 的 文件 名 (如 arith.c) 将 略 去 。 


在 Arith_div 的 参数 符号 不 同时 ， 它 必须 处 理 除 法 的 两 种 可 能 行 
为 。 如 果 除 法 同 零 舍 入 ， 而 y 不 能 整除 x， 那 么 Arith_div(x,y) 的 结果 为 
x/y-1， 否 则 ， 返 回 x/y 即 可 : 


(arith.c functions 


14) += 
int Arith_div(int x, int y) { 


if ( (division truncates toward 0 


14) 


&& (x and 
y have different signs 


14) && x%y != 0) 
return x/y - 1; 
else 


return x/y; 


前 一 市 的 例子 ， 即 将 -13 除 以 5， 可 以 测试 除法 所 采用 的 侍 入 方式 。 首 
先 判断 x 和 y 是 否 小 于 0， 然 后 比较 两 个 判断 结 采 是 否 相等 ， 即 可 检查 符 
号 问题 : 


(division truncates toward 0 


14) = 
-13/5 == -2 


(x and 


y have different signs 


14) = 


(x < 0) != (y < 0) 


Arith_ mod 可 以 按 其 定义 实现 : 


int Arith_mod(int x, int y) { 


return x - y*Arith_div(x, y); 


如 果 Arith_mod 也 像 Arith_div 屠 样 进行 判断 ， 那 么 也 可 以 使 用 % 运 
算 符 实现 。 在 相应 的 条 件 为 真 时 ， 


Arith_mod(x,y) = x - y*Arith_div(x, y) 
= Xx - y*(x/y - 1) 
=X - y*(x/y). 


十 


加 下 划 线 的 子 表达 式 是 标准 C 对 x%y 的 定义 ， 因 此 Arith_mod 可 定义 


(arith.c functions 
14) += 


int Arith_mod(int x, int y) { 


if ( (division truncates toward 0 


14) 
&& (x and 


y have different signs 


14) && x%y != 0) 
return x%y + y; 
else 


return x%y; 


Arith_floor 刚 好 等 于 Arith_div， 而 Arith_ceiling 等 于 Arith_div 加 1， 除 非 
y 能 整除 x: 


(arith.c functions 


14) += 
int Arith_floor(int x, int y) { 


return Arith_div(x, y); 


int Arith_ceiling(int x, int y) { 


return Arith_div(x, y) + (x%y != 0); 


2.3 ”抽象 数据 类 型 


一 个 抽象 数据 类 型 是 一 个 接口 ， 它 定义 了 一 个 数据 类 型 和 对 该 类 
型 的 值 所 进行 的 操作 。 一 个 数据 类 型 是 一 个 值 的 集合 。 在 C 语 言 中 ， 
内 建 的 数据 类 型 包括 字符 、 人 整数 、 浮 点 数 等 。 而 结构 本 身 也 能 定义 新 
的 类 型 ， 因 而 可 用 于 建立 更 高 级 类 型 ， 如 列表 、 树 、 查 找 表 等 。 


高 级 类 型 是 抽象 的 ， 因 为 其 接口 隐藏 了 相关 的 表示 细 玉 ， 并 只 规 
定 了 对 该 类 型 值 的 合法 操作 。 理 想 情 况 下 ， 这 些 操 作 不 会 条 露 类 型 的 
表示 细 市 ， 因 为 那样 可 能 使 客户 程序 隐 作 地 依赖 于 具体 的 表示 。 抽 象 
数据 类 型 或 ADT 的 标准 范例 是 栈 。 其 接口 定义 了 栈 类 型 及 其 5 个 操 
作 : 


(initial version of stack.h 


y= 
#ifndef STACK_INCLUDED 
#define STACK_INCLUDED 


typedef struct Stack_T *Stack_T; 


extern Stack_T Stack_new (void); 

extern int Stack_empty(Stack_T stk); 

extern void Stack_push (Stack_T stk, void *x); 
extern void *Stack_pop (Stack_T stk); 


extern void Stack_free (Stack_T *stk); 


#endif 


上 述 的 typedef 定 义 了 Stack_T 类 型 ， 这 是 一 个 指针 ， 指 回 一 个 同名 结 
构 。 该 定义 是 合法 的 ， 因 为 结构 、 联 合 和 枚 举 的 名 称 (标记 ) 占用 了 
一 个 命名 空间 ， 该 命名 空间 不 同 于 变量 、 函 数 和 类 型 名 所 用 的 命名 至 
间 。 这 种 惯用 法 的 使 用 遍及 本 书 各 处 。 类 型 名 Stack_ T， 是 这 个 接口 中 
我 们 关注 的 名 称 ， 只 有 对 实现 来 说 ， 结 构 名 才 比 较 重 要 。 使 用 相同 的 
名 称 ， 可 以 避免 用 太 多 罕见 的 名 称 污染 代码 。 


宏 STACK_INCLUDED 也 会 污染 命名 空间 ， 但 _INCLUDED 后 级 有 
助 于 避免 冲突 。 另 一 个 常见 的 约定 是 为 此 类 名 称 加 一 个 下 划 线 前 组 ， 
如 _STACK 或 _STACK_INCLUDED。 但 标准 C 将 下 划 线 前 级 保留 给 实 
现 者 和 未 来 的 扩展 使 用 ， 因 此 避免 使 用 下 划 线 前 绥 看 起 来 是 谨慎 的 做 
法 。 


该 接口 透露 了 栈 走 通过 指 回 结 构 的 指针 表示 的 ， 但 并 没有 给 出 结 
构 的 任何 信息 。 因 而 Stack_T 是 一 个 不 透明 指针 类 型 ， 客 户 程序 可 以 有 目 
由 地 操纵 这 种 指针 ， 但 无 法 反 引 用 不 透明 指针 ， 即 无 法 查看 指针 所 指 
回 结构 的 内 部 信息 。 只 有 接口 的 实现 才 有 这 种 特权 。 


不 透明 指针 隐藏 了 表示 细节 ， 有 助 于 捕获 错误 。 只 有 Stack_T 类 型 
值 可 以 传递 给 上 述 的 函数 ， 试 图 传递 男 一 种 指针 ， 如 指 癌 其 他 结构 的 
绅 针 ， 将 产生 编译 错误 。 唯 一 的 例外 是 参数 中 的 一 个 void 指针 ， 该 该 
参数 可 以 传递 任何 类 型 的 指针 。 


条 件 编 译 指 令 外 fdef 和 #endif 以 及 定义 STACK_INCLUDED 的 
#define， 使 得 stack.h 可 以 被 包含 多 次 ， 在 接口 又 导入 了 其 他 接口 时 可 
能 出 现 这 种 情况 。 如 果 没 有 这 种 保护 ， 第 二 次 和 后 续 的 包含 操作 ， 将 
为 typedef 中 的 Stack_T 重 定义 而 导致 编译 错误 。 


在 少数 可 用 的 备 选 方案 中 ， 这 种 约定 似乎 是 最 温和 的 。 禁 止 接 口 
包含 其 他 接口 ， 可 以 完全 避免 重复 包含 ， 但 这 又 强制 接口 用 某 种 其 他 
方法 指定 必须 导入 的 其 他 接口 ， 如 注释 ， 也 强迫 程序 员 来 提供 包含 指 
令 。 将 条 件 编译 指令 放 在 客户 程序 而 不 是 接口 中 ， 可 以 避免 编译 时 不 
必要 地 读 取 接口 文件 ， 但 代价 在 需要 在 许多 地 方 衍生 出 很 多 乱 七 八 精 
的 条 件 编译 指令 ， 不 像 只 放 在 接口 中 那样 请 活 。 上 文 说 明 的 约定 ， 需 
要 编译 器 来 完成 所 谓 的 “ 脏 活 ”。 


按 约定 ， 定 义 ADT 的 接口 X 可 以 将 ADT 类 型 命名 为 X_T。 本 书 中 
的 接口 在 这 个 约定 基础 上 更 进一步 ， 在 接口 内 部 使 用 宏 将 X_T 缩 写 为 
T。 使 用 该 约定 时 ，stack.h 如 下 : 


(stack.h 
= 


#ifndef STACK_INCLUDED 
#define STACK_INCLUDED 


#define T Stack_T 


typedef struct T *T; 


extern T Stack_new (void); 
extern int Stack_empty(T stk); 
extern void Stack_push (T stk, void *x); 
extern void *Stack_pop (T stk); 


extern void Stack_free (T *stk); 


#undef T 


#endif 


该 接口 在 语义 上 与 前 一 个 是 等 效 的 。 缩 写 只 是 语法 糖 (syntactic 
sugar) ， 使 得 接口 稍微 容易 阅读 一 些 。T 指 的 总 是 接口 中 的 主要 类 
型 。 但 客户 程序 必须 使 用 Stack_ T， 因 为 stack.h 末 尾 的 加 ndef 指 令 删 除 
了 了 上述 的 缩写 。 


该 接口 提供 了 可 用 于 任意 指针 的 容量 无 限制 的 栈 。Stack_new 创 建 
新 的 栈 ， 它 返回 一 个 类 型 为 T 的 值 ， 可 以 作为 参数 传递 给 其 他 四 个 男 
数 。Stack_push 将 一 个 指针 推 入 栈 顶 ，Stack_pop 在 栈 顶 删除 一 个 指针 
并 返回 该 指针 ， 如 果 栈 为 空 ，Stack_empty 返 回 1， 否 则 返回 0。 
Stack_free 以 一 个 指 癌 T 的 指针 为 参数 ， 释 放 该 指针 所 指 癌 的 栈 ， 并 将 
类 型 为 T 的 变量 设置 为 NULL 指 针 。 这 种 设计 有 助 于 避免 悬挂 指针 
(dangling pointer) ， 即 指针 指向 已 经 被 释放 的 内 存 。 例 如 ， 如 果 
names 通 过 下 述 代 码 定 义 并 初始 化 : 


#include "stack.h" 


Stack_T names = Stack_new(); 


下 述 语句 
Stack_free(&names ) ; 
将 释放 names 指 癌 的 栈 ， 并 将 names 设 置 为 NULL 指 针 。 


当 ADT 通 过 不 透明 指针 表示 时 ， 导 出 的 类 型 是 一 个 指针 类 型 ， 这 
也 是 Stack_T 通 过 typedef 定 义 为 指 癌 struct Stack_T 的 指针 的 原因 。 本 书 
中 大 部 分 ADT 都 使 用 了 类 似 的 typedef。 当 ADT 披 露 了 其 表示 细 广 ， 并 
导出 可 接受 并 返回 相应 结构 值 的 函数 时 ， 接 口 会 将 该 结构 类 型 定义 为 
导出 类 型 。 第 16 章 中 的 Text 接 口 说 明了 这 种 约定 ， 该 接口 将 Text TI 声 
明 为 struct Text_ TI 的 一 个 typedef。 无 论 如 何 ， 接 口中 的 主要 类 型 总 是 缩 
EAT ° 


2.4 客户 程序 的 职责 


接口 是 其 实现 和 其 客户 程序 之 间 的 一 份 问 约 。 实 现 必须 提供 接口 
中 规定 的 功能 ， 而 客户 程序 必须 根据 接口 中 摘 述 的 隐 式 和 显 式 的 规则 
来 使 用 这 些 功能 。 程 序 设计 语言 提供 了 一 些 隐 式 规则 ， 来 文 配 接 口中 
声明 的 类 型 、 画 数 和 变量 的 使 用 。 例 如 ，C 语 言 的 类 型 检查 规则 可 以 
捕获 接口 画 数 的 参数 的 类 型 和 数目 方面 的 错误 。 


C 语 言 的 用 法 没有 规定 的 或 编译 髓 无 法 检查 的 规则 ， 必 须 在 接口 
中 详细 说 明 。 客 户 程序 必须 遵循 这 些 规 则 ， 实 现 必 须 执行 这 些 规则 。 
接口 通常 会 规定 未 检查 的 运行 时 错误 (unchecked runtime error) ` E 
检查 的 运行 时 错误 (checked runtime error) 和 异常 (exception) ° Ñ 


检查 的 和 已 检查 的 运行 时 错误 是 非 预期 的 用 户 错误 ， 如 未 能 打开 一 个 


文件 。 运 行 时 错误 是 对 客户 程序 和 实现 之 间 揣 约 的 破坏 ， 是 无 法 恢复 
的 程序 bug。 异 常 是 指 一 些 可 能 的 情形 ， 但 很 少 发 生 。 程 序 也 许 能 从 异 
常 恢复 。 内 存 耗 尽 就 是 一 个 例子 。 异 常 在 第 4 章 详 述 。 


未 检查 的 运行 时 错误 是 对 客户 程序 与 实现 之 间 净 约 的 破坏 ， 而 实 
现 并 不 保证 能 够 发 现 这 样 的 错误 。 如 采 发 生 未 检查 的 运行 时 错误 ， 可 
能 会 继续 执行 ， 但 结果 是 不 可 预测 的 ， 甚 至 可 能 是 不 可 重复 的 。 好 的 
接口 会 在 可 能 的 情况 下 避免 未 检查 的 运行 时 错误 ， 但 必须 规定 可 能 发 
生 的 此 类 错误 。 例 如 ，Arith 必 须 指明 除 以 零 是 一 个 未 检查 的 运行 时 镑 
误 。Arith 虽 然 可 以 检查 除 以 零 的 情形 ， 但 却 不 加 处 理 使 之 成 为 未 检查 
的 运行 时 错误 ， 这 样 接口 中 的 函数 束 模 拟 了 C 语 言 内 建 的 除法 运算 符 
的 行为 《 即 ， 除 以 零 时 其 行为 是 未 定义 的 ) 。 使 除 以 零 成 为 一 种 已 检 
查 的 运行 时 错误 ， 也 十 一 种 合理 的 方案 。 


己 检 查 的 运行 时 错误 是 对 客户 程序 与 实现 之 间 净 约 的 破坏 ， 但 实 
现 保 证 会 发 现 这 种 错误 。 这 种 错误 表明 ， 客 户 程 序 坟 能 遵守 契约 对 它 
的 约束 ， 客 户 程序 有 责任 避免 这 类 错误 。Stack 接 口 规定 了 三 个 已 检查 
的 运行 时 错误 : 


(1) 癌 该 接口 中 的 任何 例 程 传递 空 的 Stack_T 类 型 的 指针 ; 
(2) 传递 给 Stack_free 的 Stack_T 指 针 为 NULL 指 针 ; 


(3) 传递 给 Stack_pop 的 栈 为 空 。 


接口 可 以 规定 异常 及 引发 异常 的 条 件 。 如 第 4 章 所 述 ， 客 户 程序 可 
以 处 理 异 常 并 采取 校正 措施 。 未 处 理 的 异常 (unhandled exception) 
被 当做 是 已 检查 的 运行 时 错误 。 接 口 通常 会 列 出 自身 引发 的 异常 及 其 
导入 的 接口 引发 的 异常 。 例 如 ，Stack 接 口 导入 了 了 Mem 接口 ， 它 使 用 后 


者 来 分 配 内 存 空间 ， 因 此 它 规 定 Stack_new 和 Stack_push 可 能 引发 
Mem Failed 异常 。 本 书 中 大 多 数 接口 都 规定 了 类 似 的 已 检查 的 运行 时 
背 误 和 异常 。 


在 问 Stack 接 口 添加 这 些 之 后 ， 我 们 可 以 继续 进行 其 实现 : 


(stack.c 


Y= 
#include 
#include 
#include 


#include 


<stddef.h> 
"assert.h" 
"mem. h" 


"stack.h" 


#define T Stack_T 


(types 


18) 


(functions 


18) 


#define 指 令 又 将 T 定 义 为 Stack_ TI 的 缩写 。 该 实现 披露 了 Stack THN 
结构 ， 它 是 一 个 结构 ， 一 个 字段 指向 一 个 链表 ， 链 表 包 含 了 栈 上 的 各 
个 指针 ， 另 一 个 字段 统计 了 指针 的 数目 。 


(types 


18) = 
struct T { 
int count; 
struct elem { 
void *x; 


struct elem *link; 


} *head; 
}; 
Stack_new 分 配 并 初始 化 一 个 新 的 T: 
(functions 
18) = 


T Stack_new(void) { 


T stk; 


NEW(stk); 
stk->count = 0; 
stk->head = NULL; 


return stk; 


NEW 古 Mem 接 口中 一 个 用 于 分 配 内 存 的 宏 。NEW(p) 为 p 指 向 的 结构 分 
配 一 个 实例 ， 因 此 Stack_new 中 使 用 它 来 分 配 一 个 新 的 Stack_T 结 构 实 
例 。 


如 果 count 字 段 为 0，Stack_empty 返 回 1， 否 则 返回 0: 


(Functions 


18) += 

int Stack_empty(T stk) { 
assert(stk); 
return stk->count == 0; 


} 


assert(st) 实 现 了 已 检查 的 运行 时 错误 ， 即 禁止 对 Stack 接 口 函 数 中 的 
Stack_T 类 型 参数 传递 NULL 指 针 。assert(e@) 是 一 个 断言 ， 声 称 对 任何 表 
达 式 e，e 都 应 该 是 非 零 值 。 如 果 e 非 零 ， 它 什么 都 不 做 ， 否 则 将 中 止 程 
序 执行 。assert 是 标准 库 的 一 部 分 ， 但 第 4 章 的 Assert 接 口 定义 了 上 自身 的 
assert， 其 语义 与 标准 库 类 似 ， 但 提供 了 优雅 的 程序 终止 机 制 。assert 
用 于 所 有 已 检查 的 运行 时 错误 © 


Stack_push 和 Stack_pop 分 别 在 stk->head 链 表 头 部 添加 和 删除 元 
素 : 


(functions 
18) += 
void Stack_push(T stk, void *x) { 


struct elem *t; 


assert(stk); 


NEW(t); 


t->link = stk->head; 


stk->head = t; 


stk->count++; 


void *Stack_pop(T stk) { 
void *x; 


struct elem *t; 


assert(stk); 
assert(stk->count > 0); 
t = stk->head; 
stk->head = t->link; 
stk->count--; 

x = t->x; 

FREE(t); 


return x; 


FREE 是 Mem 用 于 释放 内 存 的 宏 ， 它 释放 其 指针 参数 指向 的 内 存 空 
间 ， 并 将 该 参数 设置 为 NULL 指 针 ， 这 与 Stack_free 的 做 法 同 理 ， 都 是 
为 了 避免 车 挂 指针 。Stack_free 也 调用 了 FREE: 


(functions 
18) += 


void Stack_free(T *stk) { 


struct elem *t, *u; 


assert(stk && *stk); 

for (t = (*stk)->head; t; t =u) { 
u = t->link; 
FREE(t); 

} 

FREE(*stk); 


该 实现 披露 了 一 个 未 检查 的 运行 时 错误 ， 本 书 中 所 有 的 ADT O 
都 会 受到 该 错误 的 困扰 ， 因 而 并 没有 在 接口 中 指明 。 我 们 无 法 保证 传 
递 到 Stack_push ` Stack_pop ` Stack_empty 的 Stack 工 值 和 传递 到 
Stack_free 的 Stack_T* 值 都 是 Stack_new 返 回 的 有 效 的 Stack_T 值 。 习 题 
2.3 针 对 该 问题 进行 了 探讨 ， 给 出 一 个 部 分 解决 方案 。 


还 有 两 个 未 检查 的 运行 时 错误 ， 其 效应 可 能 更 为 微妙 。 本 书 中 许 
多 ADT 通 过 void 指针 通信 ， 即 存储 并 返回 void 指针 。 在 任何 此 类 ADT 
中 ， 存 储 函 数 指针 《指向 函数 的 指针 ) 都 是 未 检查 的 运行 时 错误 。 
void 指针 是 一 个 类 属 指针 (generic pointer , 通用 指针 ) , RA Avoid* 
的 变量 可 以 容纳 指向 一 个 对 象 的 任意 指针 ， 此 类 指针 可 以 指向 预定 义 
类 型 、 结 构 和 指针 。 但 函数 指针 不 同 。 虽 然 许 多 C 编 译 器 允许 将 函数 
指针 赋值 给 void 指针 ， 但 不 能 保证 void 指针 可 以 容纳 画 数 指针 日 。 


通过 void 指针 传递 任何 对 象 指针 都 不 会 损失 信息 。 例 如 ， 在 执行 
下 列 代 码 之 后 ， 


void *t; 
t =p 
q=t 


对 任何 非 贸 数 的 类 型 s，p 和 gq 都 将 是 相等 的 。 但 不 能 用 void 指 针 来 破坏 
类 型 系统 。 例 如 ， 在 执行 下 列 代 码 之 后 ， 


我 们 不 能 保证 q 与 p 征 相等 的 ， 或 者 根据 类 型 S 和 D 的 对 齐 约束 ， 也 不 能 
保证 qd 是 一 个 指 癌 类 型 D 对 象 的 有 效 指针 。 在 标准 C 语 言 中 ，void 指 针 
和 char 指 针 具 有 相同 的 大 小 和 表示 。 但 其 他 指针 可 能 小 一 些 ， 或 具有 
不 同 的 表示 。 因 而 ， 如 采 S 和 DD 是 不 同 的 对 象 类 型 ， 那 么 在 ADT 中 存储 
一 个 指向 S 的 指针 ， 将 该 指针 返回 到 一 个 指向 类 型 D 的 指针 中 ， 这 是 一 


个 未 检查 的 运行 时 错误 。 


在 ADT 本 数 并 不 修改 被 指 癌 的 对 象 时 ， 程 序 员 可 能 很 容易 将 不 透 
明 指 针 参 数 声 明 为 const。 例 如 ，Stack_empty 可 能 有 下 述 编写 方式 。 


int Stack_empty(const T stk) { 
assert(stk); 
return stk->count == 0; 


} 


const 的 这 种 用 法 是 不 正确 的 。 这 里 的 意图 是 将 stk 声 明 为 一 个 “ 指 癌 
struct T 的 常量 实例 的 指针 *， 因 为 Stack_empty 并 不 修改 *stk。 但 const T 
stk 将 stk 声 明 为 一 个 “常量 指针 ， CR TX fil”, WTHtypedef 
struct T* 打 包 到 一 个 类 型 中 ， 这 一 个 指针 类 型 成 为 了 const 的 操作 数 
器。 无 论 对 Stack_empty 还 是 其 调用 者 const T stk 都 是 无 用 的 ， 因 为 
在 C 语 言 中 ， 所 有 的 标量 包括 指针 在 函数 调用 时 都 是 传 值 的 。 无 论 有 
没有 const 限 定 符 ，Stack_empty 都 无 法 改变 调用 者 的 实 参 值 。 


用 struct T* 人 代替 T， 可 以 避免 这 个 问题 : 


int Stack_empty(const struct T *stk) { 
assert(stk); 


return stk->count == 0; 


个 用 法 说 明了 为 什么 不 应 该 将 const 用 于 传递 给 ADT 的 指针 : consti 
E 因而 限制 了 可 能 性 。 对 于 Stack 的 这 个 实现 
而 言 ， 使 用 const 不 是 问题 ， 但 它 排 除了 其 他 同样 可 行 的 方案 。 假 定 某 
个 实现 预期 可 重用 栈 中 的 元 素 ， 因 而 延迟 对 栈 元 素 的 释放 操作 ， 但 会 
在 调用 Stack_empty 时 释放 它们 。Stack_empty 的 这 种 实现 需要 修改 


*stk， 但 因为 *stk 声 明 为 const 而 无 法 进行 修改 。 本 书 中 的 ADT 都 不 使 用 


const ° 


2.5 ”效率 


本 书 中 的 接口 的 大 多 数 实现 所 使 用 的 算法 和 数据 结构 ， 其 平均 情 
况 运行 时 间 不 会 超过 N (输入 规模 ) 的 线性 函数 ， 大 多 数 算法 都 能 够 
处 理 大 量 的 输入 。 无 法 处 理 大 量 输入 的 接口 ， 或 者 性 能 可 能 成 为 重要 
影响 因素 的 接口 ， 可 以 规定 性 能 标准 (performance criteria) 。 实 现 必 
须 满足 这 些 标准 ， 客 户 程序 可 以 预期 性 能 能 够 达到 标准 的 规定 (但 不 
会 比 标准 好 上 多 少 ) 。 


本 书 中 所 有 的 接口 都 使 用 了 简单 但 高 效 的 算法 。 在 N 较 大 时 ， 更 
复杂 的 算法 和 数据 结构 可 能 有 更 好 的 性 能 ， 但 N 通 党 比较 小 。 大 多 数 
实现 都 只 使 用 基本 的 数据 结构 ， 如 数组 、 链 表 、 哈 布 表 、 树 和 这 些 数 
据 结构 的 组 合 。 


本 书 中 的 ADT， 除 少量 之 外 全 部 使 用 了 不 透明 指针 ， 因 此 需要 使 
用 诸如 Stack_empty 之 类 的 函数 来 访问 隐藏 在 实现 育 后 的 字段 。 调 用 男 
数 而 不 是 直接 访问 字段 会 囊 来 开销 ， 但 它 对 实际 应 用 程序 性 能 的 影响 
通常 都 是 可 忽略 的 。 这 种 做 法 在 可 靠 性 和 捕获 运行 时 错误 的 机 会 方面 
带 来 的 改进 是 可 观 的 ， 远 超 性 能 方面 的 轻微 代价 。 


如 果 客 观 的 测量 表明 确实 有 必要 改进 性 能 ， 那 么 这 种 改进 不 应 该 
改变 接口 ， 例 如 ， 可 通过 定义 宏 进 行 。 当 这 种 方法 不 可 行 时 ， 最 好 创 
建 一 个 新 接口 并 说 明 其 性 能 方面 的 优势 ， 而 不 是 改变 现存 的 接口 (这 
将 使 所 有 的 客户 程序 无 效 ) 。 


2.6 扩展 阅读 


目 20 世 纪 50 年 代 以 来 ， 过 程 和 函数 库 的 重要 性 已 经 是 公认 的 。 
[Parnas 1972] 一 文 是 一 篇 典型 的 论文 ， 讨论 了 如 何 将 程序 划分 为 模 
块 。 该 论文 的 历史 已 经 将 近 40 年 ， 但 当今 的 程序 员 仍 然 面临 着 该 文 所 
考虑 的 问题 。 


C 程 序 员 每 天 都 使 用 接口 : C 库 是 15 个 接口 的 集合 。 标 准 输入 输出 
接口 ， 即 stdio.h， 定 义 了 一 个 ADT FILE ， 以 及 对 FILE 指 针 的 操作 。 
[Plauger，1992] 一 书 详细 描述 了 这 15 个 接口 及 适当 的 实现 ， 其 叙述 方 
式 大 体 上 类 似 于 本 书 讨 论 一 组 接口 和 实现 的 方式 。 


Modula-3 是 一 种 相对 较 新 的 语言 ， 从 语言 层面 支持 接口 与 实现 相 
分 离 ， 本 书 中 使 用 的 基于 接口 的 术语 即 源 上 自 该 语言 [Nelson，1991]°。 示 
检查 和 已 检查 的 运行 时 错误 的 概念 ， 和 ADT 的 T 表 示 法 ， 都 是 借鉴 
Modula-3。[Harbison，1992] 是 介绍 Modula-3 的 一 本 教科 书 。[Horning 
等 人 ，1993] 一 书 描述 了 其 Modula-3 系 统 中 的 核心 接口 。 本 书 中 一 些 接 
口 改 编目 该 书 中 的 接口 。[Roberts ，1995] 一 书 使 用 了 基于 接口 的 设 
计 ， 作 为 讲授 计算 机 科学 入 门 课 程 的 编排 方式 。 


员 言 的 重要 性 是 公认 的 ， 在 一 些 语言 如 Modula-3 和 Eiffel [Meyer, 
1992] 中 ， 上 断言 机 制 是 内 建 在 语言 中 的 。[Maguire，1993] 一 书 用 一 整 章 
的 篇 幅 讨 论 C 程 序 中 断言 的 使 用 。 


熟悉 面向 对 象 编程 的 程序 员 可 能 认为 ， 本 书 中 大 部 分 ADT 都 可 以 
用 面向 对 象 程序 设计 语言 中 的 对 象 实现 (可 能 实现 得 更 好 ) ， 如 C++ 
[Ellis and Stroustrup，1990] 和 Modula-3。[Budd，1991] 一 书 是 面向 对 象 


程序 设计 方法 学 的 入 门 介绍 ， 还 包括 一 些 面向 对 象 程序 设计 语言 如 
C++ 的 内 容 。 本 书 中 说 明 的 接口 设计 原理 同样 适用 于 面向 对 象 语言 
例如 ， 用 C++ 语言 重 写本 书 中 的 ADT， 对 从 C 语 言 切换 到 C++ 的 程序 员 
来 说 是 一 个 很 有 用 的 练习 过 程 。 


STL 《C++ 标准 模板 库 ，Standard Template Library) 提供 了 与 本 书 
所 述 类 似 的 ADT。STL 充 分 利用 了 C++ 模板 来 针对 具体 类 型 实例 化 
ADT (参见 [Musser and Saini, 1996]) 。 例 如 ，STL 为 vector 类 型 提供 
了 一 个 模板 ， 可 针对 int、string 等 类 型 分 别 实例 化 出 对 应 的 vector 类 
型 。STL 还 提供 一 套 函 数 ， 来 处 理由 模板 生成 的 类 型 。 


2.7 “习题 


2.1 原本 可 使 用 预 处 理 器 宏和 条 件 编 译 指 令 如 #if， 来 指定 
Arith_div 和 Arith mod 中 如 何 处 理 除法 的 舍 入 操作 。 解 释 为 什么 
对 -13/5==-2 的 显 式 测试 是 实现 上 述 判 断 的 更 好 的 方法 。 


2.2 ”对 于 Arith_div 和 Arith_mod 来 说 ， 仅 当 用 于 编译 arith.c 的 编译 
器 执行 算术 操作 的 方式 与 Arith_div 和 Arith_mod 被 调用 时 的 目标 机 器 相 
同时 ， 这 两 个 函数 中 所 用 的 -13/5==-2 测 试 才 是 有 效 的 。 但 这 个 条 件 可 
能 会 不 成 立 ， 例 如 ， 如 果 arith.c 由 运行 在 机 器 X 上 交叉 编译 器 编译 ， 针 
对 机 器 Y 生 成 代码 。 不 使 用 条 件 编译 指令 ， 请 改正 arith.c， 使 得 交叉 编 
译 生 成 的 代码 也 保证 可 以 工作 。 


2.3 如 同 本 书 中 所 有 的 ADT，Stack 接 口 也 省 略 了 下 述 规 格 说 
HA: “将 外 部 的 Stack_T 传 递 给 本 接口 中 任何 例 程 ， 都 是 未 检查 的 运行 
时 销 误 ”。 外 部 的 Stack_ T， 意 味 着 不 是 由 Stack_new 产 生 的 Stack_T。 修 


正 stack.c， 使 其 可 以 在 某 些 情况 下 检查 到 这 种 错误 。 例 如 ， 一 种 方法 
是 问 Stack_T 结 构 添 加 一 个 字段 ， 对 于 Stack_new 返 回 的 Stack_T， 该 字 
段 包 含 一 个 特有 的 位 模式 。 


2.4 通常 有 可 能 会 检测 到 某 些 无 效 指针 。 例 如 ， 如 果 一 个 非 空 指 
针 指 定 的 地 址 在 客户 程序 地 址 空间 之 外 ， 那 么 该 指针 融 是 无 效 的 ， 而 
且 指 针 通 常会 受到 对 齐 约束 ， 例 如 ， 在 某 些 系统 上 ， 指 癌 double 的 指 
和 针 ， 指 同 的 地 址 必定 是 8 的 倍数 。 请 设计 一 个 特定 于 系统 的 宏 
isBadPtr(p)， 在 p 为 无 效 指针 时 为 1， 这 样 assert(ptr) 之 类 的 断言 都 可 以 
替换 为 类 似 assert (!isBadPtr(ptr)) 的 断言 。 


2.55 ”对 栈 来 说 ， 有 许多 可 行 的 接口 。 为 Stack 接 口 设 计 并 实现 一 些 
备 选 方案 。 例 如 ， 一 种 方案 是 再 为 Stack_new 增 加 一 个 参数 ， 用 于 指定 
栈 的 最 大 容量 。 


[1] C 语 言 中 数据 指针 和 函数 指针 的 位 宽 应 该 是 相同 的 ， 但 C++ 中 
的 成 员 函 数 指针 可 能 有 不 同 。 一 一 译 者 注 


[2] const tm att, JEE E; const him, A E 


是 常量 。 一 — 译 者 注 


第 3 章 ”原子 


原子 (atom) 是 一 个 指针 ， 指 向 一 个 唯一 的 、 不 可 变 的 序列 ， 序 
列 中 包含 零 或 多 个 字 节 (FER) 。 大 多 数 原子 都 指向 0 结尾 字符 
串 ， 但 也 可 以 是 指向 任 一 字 节 序列 的 指针 。 任 一 原子 都 只 会 出 现 一 
次 ， 这 也 十 它 被 称 为 原子 的 原因 。 如 采 两 个 原子 指 癌 相同 的 位 置 ， 那 
么 二 者 十 相同 的 。 原 子 的 一 个 优点 是 ， 只 通过 比较 两 个 指针 ， 即 可 比 
较 两 个 字 节 序列 和 是否 相等 。 使 用 原子 的 另 一 个 优点 是 节省 空间 ， 因 为 
任 一 序列 都 只 会 出 现 一 次 。 


在 数据 结构 中 ， 如 果 使 用 任意 字 节 的 序列 作为 索引 (而 不 使 用 整 
数 ) ， 那 么 通常 将 原子 用 作 刍 。 第 8 章 和 第 9 章 中 的 表 和 集合 就 是 例 
Ph 


3.1 #0 


Atom 接 口 很 简单 : 


latom. h 


》 三 
#ifndef ATOM_INCLUDED 
#define ATOM_INCLUDED 


extern int Atom_length(const char *str); 
extern const char *Atom_new (const char *str, int len); 
extern const char *Atom_string(const char *str); 


extern const char *Atom_int (long n); 


#endif 


Atom_new 的 参数 包括 一 个 指 同 字 太 序列 的 指针 ， 以 及 该 序列 中 的 字 广 
数目 。 如 果 必 要 的 话 ， 它 将 该 序列 的 一 个 副本 添加 到 原子 表 并 返回 该 
原子 ， 即 指 回 原子 表 中 该 序列 副本 的 指针 。Atom_new 从 不 返回 NULL 

日 针 。 在 原子 创建 后 ， 它 在 客户 程序 的 整个 执行 时 间 内 都 存在 。 原 子 
总 是 以 零 字 符 结束 ，Atom_ new 在 必要 时 会 添加 零 字 符 。 


Atom_string 与 Atom_new 类 似 ， 它 迎合 了 将 字符 串 用 作 原 子 的 通常 
用 法 。 该 画 数 接受 一 个 0 结尾 字符 串 作为 参数 ， (如 有 必要 ) 将 该 字符 
串 的 一 个 副本 添加 到 原子 表 ， 并 返回 该 原子 。Atom_int 返 回 对 应 于 以 
字符 串 表示 长 整数 n 的 原子 ， 这 是 男 一 种 常见 的 用 法 。 最 后 ， 
Atom_length 返 回 其 参数 原子 的 长 度 。 


向 本 接口 中 的 任何 函数 传递 NULL 指 针 、 向 Atom_new 传 递 的 len 参 
数 为 负 值 或 者 向 Atom_length 传 递 的 指针 并 非 原 和子， 这 些 都 是 已 检查 的 
运行 时 错误 。 修 改 原 子 指 同 的 字 节 ， 属 于 未 检查 的 运行 时 错误 。 
Atom_length 的 执行 时 间 与 原子 的 数目 成 正比 。Atom new、 
Atom_string 和 Atom_int 都 可 能 引发 Mem_Failed 异 常 。 


3.2 ”实现 


Atom 的 实现 需要 维护 原子 表 。 Atom_new ` Atom_string 和 
Atom_int 搜 索 原 子 表 并 可 能 向 其 中 添加 新 元 素 ， 而 Atom_length 只 是 搜 
RETK ° 


latom. c 


》 三 


(includes 


25) 


(macros 


28) 
(data 


26) 


(functions 


25) 


(includes 


25) = 


#include "“atom.h" 


Atom_string 和 Atom _int 可 以 在 不 了 解 原子 表 表 示 细 市 的 情况 下 实 
现 。 例 如 ，Atom_string 只 是 调用 了 Atom_new: 


(Functions 


25) = 
const char *Atom_string(const char *str) { 
assert(str); 


return Atom_new(str, strlen(str)); 


(includes 


25) += 


#include <string.h> 


#include "“assert.h" 


Atom int E KERSANE, Java Al Atom_new: 


(functions 


25) += 

const char *Atom_int(long n) { 
char str[43]; 
char *s = str + sizeof str; 


unsigned long m; 


if (n == LONG_MIN) 
m = LONG_MAX + 1UL; 


else if (n < 0) 


do 


*--S = m%10 + 'O'; 


while ((m /= 10) > 0); 
if (n < 0) 


return Atom_new(s, (str + sizeof str) - s); 


(includes 


25) += 


#include <limits.h> 


Atom_ intl» Be 5h BA a2 all # MIS FON YY LAT ERY PVE], AKC 
语言 的 除法 和 模 运 算 的 二 义 性 。 无 符号 数 的 除法 和 模 运 算是 民 定 义 
的 ， 因 此 Atom_int 可 以 通过 使 用 无 符号 运算 来 避免 市 符号 运算 符 的 二 
ee 


对 于 有 符号 的 最 小 人 负 值 长 整数 来 说 ， 其 绝对 值 是 无 法 表示 的 ， 
为 在 二 进 制 编码 系统 中 ， 负 数 比 正 数 多 一 个 。 因 而 ，Atom_new 首 先 检 
验 这 种 单一 的 异常 情况 ， 然 后 将 其 参数 的 绝对 值 赋值 给 无 符号 长 整数 
m。LONG_MAX 的 值 定 义 在 标准 头 文件 limits.h 中 。 


接 下 来 的 循环 从 右 到 左 建立 m 的 十 进 制 字 符 串 表示 ， 它 首先 计算 
最 右 侧 的 位 ， 然 后 将 m 除 以 10， 依 次 类 推 ， 直 至 m 变 为 零 。 随 着 每 个 
位 的 得 出 ， 相 应 的 字符 存储 在 --s 指 加 的 位 置 ， 这 相当 于 在 str 中 逆 癌 移 
动 指针 s 的 位 置 。 如 采 n 是 人 负 值 ， 还 需要 在 字符 串 开始 处 存储 一 个 负 
号 。 


当 转 换 完成 时 ，s 指 向 所 要 的 字符 串 ， 该 字符 串 包含 &str[43]-s 个 
字符 。str 数 组 可 容纳 43 个 字符 ， 在 任何 机 右上 这 都 足以 容纳 任何 整数 
的 十 进 制 表示 。 例 如 ， 假 定 long 类 型 的 位 宽 为 128 个 bit。 对 任意 的 128 
位 有 符号 整数 来 说 ， 它 在 八进制 下 的 字符 串 表 示 可 以 放 到 128/3+1=43 
个 字符 中 四。 十 进 制 表示 用 的 位 数 不 会 比 八进制 表示 更 多 ， 因 此 43 个 
字符 是 足够 的 。 


str 定 义 中 的 43， 就 是 所 谓 “ 魔 数 ”(\magic number) 的 一 个 例子 ， 
通常 更 好 的 代码 风格 要 求 为 这 样 的 值 定 义 一 个 符号 名 ， 以 确保 代码 中 
各 处 使 用 的 值 是 相同 的 。 但 在 这 里 ， 该 值 只 出 现 一 次 ， 而 且 每 次 引用 
该 值 时 都 使 用 了 sizeof 运 算 符 。 定 义 一 个 符号 名 可 能 使 代码 更 容易 读 ， 
但 也 会 使 代码 更 长 且 扰乱 命名 空间 。 本 书 中 ， 仅 当 相 关 值 出 现 多 次 
时 ， 或 者 该 值 征 接口 的 一 部 分 时 ， 才 定义 符号 名 ， 下 文中 哈 硕 表 
buckets 的 长 度 (2048) ， 是 该 约定 的 男 一 个 例子 。 


对 原子 表 来 说 ， 选 择 哈 硕 表 作 为 数据 结构 是 显然 的 。 这 里 的 哈 硕 
表 是 一 个 指针 数组 ， 每 个 指针 指向 一 个 链表 ， 链 表 中 的 每 个 表 项 保存 


(data 


26) = 


static struct atom { 
struct atom *link; 
int len; 
char *str; 


} *buckets[2048]; 


发 源 自 buckets[i] 的 链表 你 存 了 那些 散 列 到 i 的 原子 。 链 表 项 的 link 字 段 
指 癌 链表 中 下 一 个 表 项 ，len 字 段 你 存 了 字 节 序列 的 长 度 ， 而 str 字 有 段 指 
问 序 列 本 号。 例如 ， 在 字 长 32 比 特 、 字 符 位 宽 8 比特 的 小 端 序 计 算 机 
E, Atom_string("an atom") 将 分 配 如 图 3-1 所 示 的 struct atom， 其 中 下 划 
线 字符 (_) 表示 空格 。 每 个 链表 项 的 大 小 都 刚好 足够 容纳 其 字 序 
列 。 图 3-2 给 出 了 哈 希 表 的 整体 结构 。 


图 3-1 ”表示 原子 的 struct atom 实 例 的 “小 端 序 ?布局 
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Atom_new 对 序列 str[0..len-1] (或 空 序 列 ， 如 果 ]en 为 零 ) 计算 一 个 
哈 硕 码 ， 将 该 哈 希 人 码 对 哈 硕 桶 的 数目 取 模 得 到 一 个 索引 值 ， 并 搜索 该 
索引 值 对 应 的 哈 希 桶 〈 即 链表 ) 。 如 果 函 数 发 现 str[0..len-1] 已 经 在 表 
中 ， 束 只 返回 对 应 的 原子 : 


(functions 
25) += 


const char *Atom_new(const char *str, int len) { 


unsigned long h; 


int 1; 


struct atom *p; 


assert(str); 
assert(len >= 0); 


(h - hash 


str[0..len-1] 29) 
h %= NELEMS(buckets); 
for (p = buckets[h]; p; p = p->link) 
if (len == p->len) { 
for (i = 0; i < len && p->str[i] == str[i]; ) 
i++; 
if (i == len) 
return p->str; 


J 


(allocate a new entry 


28) 
return p->str; 
} 
(macros 
28) = 


#define NELEMS(x) ((sizeof (x))/(sizeof ((x)[0]))) 


NELEMS 的 定义 说 明了 一 种 常见 的 C 语 言 惯 用 法 : 数组 中 元 素 的 数 
目 ， 就 是 数组 的 大 小 除 以 每 个 数组 元 素 的 大 小 。sizeof 是 一 个 编译 时 运 
算 符 ， 因 此 该 计算 只 适用 于 在 编译 时 大 小 已 知 的 数组 。 如 该 定义 所 
示 ， 宏 参数 用 斜体 印刷 ， 以 标明 宏 功 能 体 中 使 用 宏 参 数 之 处 。 


如 果 str[0..len-1] 不 在 表 中 ，Atom_new 分 配 一 个 struct atomi E 
的 附加 空间 来 容纳 该 序列 ， 将 str[0..len-1] 复 制 到 分 配 的 附加 空间 中 ， 
并 将 新 的 表 项 添加 到 buckets[h] 链 表 的 头 部 ， 从 而 将 该 序列 添加 到 哈 硕 
表 中 。 该 链表 项 也 可 以 添加 到 链表 的 尾部 ， 但 添加 到 链表 头 部 比较 简 
单 o 


(allocate a new entry 


28) = 

p = ALLOC(sizeof (*p) + len + 1); 
p->len = len; 

p->str = (char *)(p + 1); 

if (len > 0) 

memcpy(p->str, str, len); 

p->str[len] = '\0'; 

p->link = buckets[h]; 

buckets[h] = p; 


(includes 


25) += 


#include "mem.h" 


ALLOC 是 Mem 接 口 用 于 分 配 内 存 的 主要 加 数 ， 它 模仿 了 标准 库 芳 数 
malloc: 其 参数 是 所 需 分 配 的 字 广 数 。Atom_new 不 能 使 用 Mem 接 口 的 
NEW (在 Stack_push 中 说 明 过 ) ， 因 为 需要 分 配 的 字 世 数 取 决 于 len ， 
仅 当 需要 分 配 的 字 和 数 在 编译 时 已 知 ， 才 能 应 用 NEW。 上 述 对 
ALLOC 的 调用 ， 同 时 为 atom 结 构 和 字 节 序列 分 配 了 空间 ， 字 节 序 列 紧 
接着 结构 之 后 存储 。 


对 传递 给 Atom_new 的 序列 进行 散 列 ， 就 是 计算 出 表示 该 序列 的 一 
个 无 符号 数 。 理 想 情 况 下 ， 对 N 个 输入 序列 ， 所 算得 的 哈 希 码 应 该 均 
匀 地 分 布 在 0 到 NELEMS(buckets)-1 的 范围 内 。 如 果 它 们 的 分 布 确实 如 
此 ， 那 么 buckets 中 的 每 个 链表 将 有 N/NELEMS(buckets) 个 表 项 ， 搜 索 
一 个 字 节 序列 的 平均 时 间 将 是 N/(2*NELEMS(buckets))。 如 果 (假定 ) 
N 人 小 于 2*NELEMS(buckets)， 那 么 搜索 时 间 实 质 上 是 一 个 常数 。 


散 列 是 一 个 已 经 充分 研究 过 的 主题 ， 有 许多 好 的 哈 希 函数 可 用 。 
Atom_new 使 用 一 个 简单 的 查 表 算法 : 


(h - hash 


str[0..len-1] 29) = 
for (h = 0, i= 0; i < len; i++) 


h = (h<<1) + scatter[(unsigned char)str[i]]; 


scatter 是 一 个 256 项 的 数组 ， 它 将 字 节 值 映 射 到 随机 数 ， 这 些 随机 数 是 
通过 调用 标准 库 函 数 rand 生 成 的 。 经 验 表 明 ， 这 种 简单 的 方法 有 助 于 
使 哈 希 值 分 布 更 均 习 。 将 str[i 转 换 为 无 符号 字符 可 以 避免 C 语 言 

天 “普通 ”字符 的 二 义 性 : 字符 可 以 是 有 符号 或 无 符号 的 。 如 果 不 转 


换 ， 在 使 用 市 符号 字符 的 机 右上 ， 超 过 127 的 st 器 值 将 产生 负 的 索引 
值 。 


(data 


26) += 
static unsigned long scatter[] = { 

2078917053, 143302914, 1027100827, 1953210302, 755253631, 
2002600785, 

1405390230, 45248011, 1099951567, 433832350, 2018585307, 
438263339, 

813528929, 1703199216, 618906479, 573714703, 766270699, 
275680090, 

1510320440, 1583583926, 1723401032, 1965443329, 1098183682, 
1636505764, 

980071615, 1011597961, 643279273, 1315461275, 157584038, 
1069844923, 

471560540, 89017443, 1213147837, 1498661368, 2042227746, 
1968401469, 

1353778505, 1300134328, 2013649480, 306246424, 1733966678, 
1884751139, 

744509763, 400011959, 1440466707, 1363416242, 973726663, 
59253759, 

1639096332, 336563455, 1642837685, 1215013716, 154523136, 
593537720, 

704035832, 1134594751, 1605135681, 1347315106, 302572379, 
1762719719, 


269676381, 
1746481261, 
1303742040, 
485614972, 
907175364, 
1859353594, 
259412182, 
202956538, 
348303940, 
1640123668, 
1568675693, 
392083579, 
871926821, 
1509024645, 
109190086, 
1489680608, 
706686964, 
884508252, 
958076904, 
2102252735, 
1788268214, 
247038362, 
299641085, 
1504556512, 
1532354806, 
1651524391, 


618454448, 


774132919, 


1479089144, 


382361684, 


1237390611, 


1008956512, 


478464352, 


1117546963, 


1047146551, 


1506717157, 


1609787317, 


836935336, 


834307717, 


567072918, 


121093252, 


1851737163, 


899131941, 


885626931, 


48433401, 


1337551289, 


266772940, 


1871172724, 


1891386329, 


579587572, 


1893464764, 


433233439, 


1364585325, 


404219416, 


1010757900, 


1482824219, 


1169907872, 


200158423, 


1902249868, 


1953439621, 


1272929208, 


1771058762, 


994817018, 


755120366, 


148144545, 


2055041154, 


23330161, 


1276257488, 


1198042020, 


125310639, 


1785335569, 


1745777927, 


304920680, 


208787970, 


1961288571, 


139971187, 


1247304975, 


1261483377, 


1415743291, 


2109864544, 


457882831, 


1561889936, 


876213618, 


124757630, 
2082550272, 
1002804590, 
1783300476, 
1802120822, 
316088629, 
946827723, 
1037746818, 
928306929, 
946006977, 
1925613800, 
2081522508, 
1447372094, 
523904750, 
306401572, 
2018281851, 


1843084537, 


1306570817, 


1301613820, 


1601294739, 


176384212, 
281341425, 
1947861263, 
1193650546, 
593586330, 
275676551, 


1621212876, 


1834290522, 1734544947, 1828531389, 1982435068, 


1623219634, 1839739926, 69050267, 1530777140, 


1830418225, 488944891, 1680673954, 1853748387, 


1238619545, 1513900641, 1441966234, 367393385, 


985847834, 1049400181, 1956764878, 36406206, 


2118956479, 1612420674, 1668583807, 1800004220, 


1435821048, 923108080, 216161028, 1504871315, 


1820959944, 2136819798, 359743094, 1354150250, 


244413420, 934220434, 672987810, 1686379655, 


484902984, 139978006, 503211273, 294184214, 


228223074, 147857043, 1893762099, 1896806882, 


273227984, 1236198663, 2116758626, 489389012, 


360187215, 267062626, 265012701, 719930310, 


2108097238, 2026501127, 1865626297, 894834024, 552005290, 
1404522304, 
48964196, 5816381, 1889425288, 188942202, 509027654, 
36125855, 
365326415, 790369079, 264348929, 513183458, 536647531, 
13672163, 
313561074, 1730298077, 286900147, 1549759737, 1699573055, 
776289160, 
2143346068, 1975249606, 1136476375, 262925046, 92778659, 
1856406685, 
1884137923, 53392249, 1735424165, 1602280572 


}; 


Atom_length 无 法 散 列 其 参数 ， 因 为 其 长 度 是 未 知 的 。 但 该 参数 必 
须 是 一 个 原子 ， 因 此 Atom_length 只 需 遇 历 buckets 中 的 的 各 个 链表 ， 一 
一 比较 指针 即 可 。 如 采 找 到 该 原子 ， 则 返回 其 长 度 : 


(Functions 


25) += 
int Atom_length(const char *str) { 
struct atom *p; 


int 1; 


assert(str); 
for (i = 0; i < NELEMS(buckets); i++) 


for (p = buckets[i]; p; p = p->Link) 


if (p->str == str) 

return p->len; 
assert(0); 
return 0; 


} 


assert(0) 实 现 了 一 个 已 检查 的 运行 时 错误 ， 即 Atom_length 必 须 只 对 原 
子 调 用 ， 而 不 能 对 指向 其 他 字符 串 的 指针 进行 调用 。assert(0) 也 用 于 指 
明 一 些 假定 不 会 发 生 的 情况 ， 即 所 谓 “ 不 可 能 发 生 ”* 的 情况 。 


3.3 扩展 阅读 


原子 已 经 在 LISP 中 长 期 使 用 ， 这 也 是 其 名 称 的 来 源 ， 它 在 字符 串 
处 理 语言 中 也 有 很 久 的 使 用 历史 ， 如 SNOBOL4 实 现 的 字符 串 几 乎 刚好 
如 本 章 所 述 [Griswold，1972]。C 编 译 句 lcc [Fraser and Hanson, 1995] 
有 一 个 类 似 于 Atom 的 模块 ， 它 是 Atom 的 前 任 实现 。lcc 将 表示 源 程序 
中 所 有 标识 符 和 常数 的 字符 串 都 存储 在 一 个 表 中 ， 从 来 不 会 释放 。 这 
样 做 从 未 消耗 太 多 内 存 ， 因 为 与 源 程序 的 规模 相 比 ，C 程 序 中 不 同 字 
符 串 的 数目 非常 少 。 


[Sedgewick，1990] 和 [Knuth ，1973b] 两 书 详细 描述 了 散 列 ， 并 给 
出 了 编写 民 好 的 哈 希 函数 的 指导 原则 。Atom (Fee) FEA ASIA A K 
数 是 Hans Boehm 建 议 的 。 


3.4 习题 


3.1 大 多 数 教科 书 推荐 将 buckets 的 容量 设置 为 素数 。 使 用 素数 和 
良好 的 哈 希 函数 ， 通 常会 使 puckets 中 的 链表 长 度 具 有 更 好 的 分 布 。 
Atom 使 用 了 2 的 需 作 为 buckets 的 容量 ， 这 种 做 法 有 时 被 明确 地 作为 " 反 
面 典 型 "引用 。 编 写 一 个 程序 来 生成 或 恋 入 RE) 10000 个 有 代表 性 
的 字符 串 ， 并 测量 Atom_new 的 速度 和 哈 希 表 中 各 个 链表 长 度 的 分 布 。 
接 下 来 改变 buckets， 使 之 包含 2039 项 (小 于 2048 的 最 大 素数 ) ， 重 复 
上 述 测 量 。 使 用 素数 有 改进 吗 ? 读者 的 结论 在 多 大 程度 上 取决 于 你 用 
来 测试 的 具体 机 器 ? 


3.2 ”查阅 文 献 寻 找 更 好 的 哈 希 函数 ， 可 能 的 来 源 包 括 [Knuth， 
1973b] 一 书 、 算 法 和 数据 结构 方面 类 似 的 教科 书 及 其 引用 的 论文 、 以 
及 编译 器 方面 的 教科 书 ， 如 [Aho, Sethi and Ullman，1986] 一 书 。 党 试 
这 些 函 数 并 测量 其 改进 情况 。 


3.3 ”解释 Atom_new 不 使 用 标准 C 库 函数 stmcmp 比 较 字 节 序 列 的 
原因 。 


3.4 ”以 下 十 男 一 种 声明 原子 结构 的 方法 : 


struct atom { 
struct atom *link; 
int len; 
char str[1]; 

}; 


分 配 一 个 包含 长 度 为 len 的 字符 串 的 struct atom 实 例 时 ， 需 要 用 
ALLOC(sizeof(*p)+len)， 这 为 link 和 len 字 段 分 配 了 空间 ， 而 且 为 str 字 
段 分 配 的 空间 足以 容纳 len+1 个 字 节 。 正 文中 将 str 声 明 为 指针 会 引入 一 


层 额 外 的 间接， 这 种 方法 则 避免 了 间接 方式 所 带 来 的 时 间 和 空间 开 
销 。 遗 憾 的 是 ， 这 种 “技巧 ”违反 了 C 语 言 标 准 ， 因 为 客户 程序 需要 访 
问 超 出 str[0] 的 各 字 市 ， 这 种 访问 的 效果 是 未 定义 的 。 实 现 这 种 方法 ， 
并 测量 间接 方式 的 开销 。 为 了 这 些 市 省 ， 是 否 值 得 违反 标准 ? 


3.5 ”Atom_new 会 比较 struct atom 实 例 的 len 字 上 段 与 输入 的 字 节 序列 
的 长 度 ， 以 避免 比较 长 度 不 同 的 序列 。 如 果 每 个 原子 的 哈 硕 码 (而 不 
是 buckets 的 索引 ) 也 存储 在 struct atom 中 ， 还 可 以 比较 哈 希 码 。 实 现 并 
测量 这 种 “改进 ”。 这 种 做 法 值得 吗 ? 


3.6 Atom length 执行 得 比较 慢 。 修 改 Atom 的 实现 ， 使 得 
Atom_length 的 运行 时 间 与 Atom_new 大 致 相同 。 


3.7 Atom 接 口 之 所 以 演变 到 现在 的 形式 ， 是 因为 其 中 的 各 个 函数 
征 客 户 程 序 最 常用 的 。 还 可 能 使 用 其 他 的 函数 和 设计 ， 这 里 和 后 续 的 
各 习题 将 探讨 这 些 可 能 性 。 请 实现 


extern void Atom_init(int hint); 


其 中 hint 征 对 客户 程序 预期 创建 的 原子 数目 的 估计 。 在 可 能 调用 
Atom_init 时 ， 读 者 会 添加 何 种 已 检查 的 运行 时 错误 以 约束 其 行为 ? 


3.8 在 对 Atom 接 口 的 扩展 中 ， 可 能 提供 几 种 函数 来 释放 原子 。 例 
A P IREK ZN: 


extern void Atom_free (const char *str); 


extern void Atom_reset(void); 


可 以 分 别 释放 str 指 定 的 原子 及 所 有 原子 。 请 实现 这 些 函 数 。 不 要 和 起 记 
指定 并 实现 适当 的 已 检查 的 运行 时 错误 。 


3.9 ”一 些 客户 程序 开始 执行 时 ， 会 将 大 量 字 符 串 设置 为 原子 ， 供 
后 续 使 用 。 请 实现 
extern void Atom_vload(const char *str, ...); 


extern void Atom_aload(const char *strs[]); 


Atom_vload2 Ff A] KE BAU Ze FA FF RUE AU, EDRF 
NULL 指 针 为 止 ， 而 Atom_aload 对 一 个 指针 数组 做 同样 的 操作 ( 即 各 
数组 项 为 指向 字符 串 的 指针 ， 明 到 NULL 指 针 表 示 数 组 结束 ) 。 


3.10 ”如 末 客 户 程序 承诺 不 释放 字符 串 ， 那 么 可 以 避免 复制 字符 
串 ， 对 于 字符 第 前 数 来 说 这 是 一 个 简单 的 事实 。 请 实现 


extern const char *Atom_add(const char *str, int len); 


其 工作 方式 如 同 Atom_new， 但 并 不 复制 字 节 序列 。 如 果 读 者 提供 
Atom add 和 Atom free (以 及 习题 3.8 中 的 Atom_reset) ， 必 须 指 定 并 实 
现 何 种 已 检查 的 运行 时 错误 ? 


[1] 这 个 不 是 很 严谨 ， 其 实 应 该 是 127/3+1=44 个 字符 ， 这 里 的 除法 
MSRESA; 应 当 不 影响 10 进 制 下 的 讨论 。 译 者 注 


BIE ”异常 与 断言 


程序 中 会 发 生 三 种 错误 : 用 户 错误 、 运 行 时 错误 和 异常 。 用 户 错 
运 是 预期 会 发 生 的 ， 因 为 错误 的 用 户 输 入 束 可 能 会 导致 用 户 错 误 。 此 
类 错误 的 例子 ， 包 括 命 名 不 存在 的 文件 、 在 电子 表格 中 指定 格式 错误 
的 数字 以 及 向 编译 器 提交 语法 错误 的 源 程 序 等 。 程 序 必 须 预计 到 这 种 
错误 并 受到 处 理 。 通 前 ， 必 须 处 理 用 户 错 误 的 函数 会 返回 错误 码 ， 这 
种 错误 是 计算 过 程 的 一 个 普通 组 成 部 分 。 


前 几 章 中 描述 的 已 检查 的 运行 时 错误 ， 与 用 户 错误 相 比 ， 实 在 是 
相隔 参 商 。 已 检查 的 运行 时 错误 不 是 用 户 错 误 。 它 们 从 来 都 是 非 预 期 
的 ， 总 是 表明 程序 出 现 了 bug。 因 而 ， 应 用 程序 无 法 从 这 种 错误 恢复 ， 
而 必须 优雅 地 结束 。 本 书 中 的 实现 使 用 断言 (assertion) 来 捕获 这 种 错 
误 。 断 言 的 处 理 在 4.3 节 摘 述 。 断 言 总 是 导致 程序 结束 ， 有 具体 的 结束 方 
式 或 许 取 决 于 机 器 或 应 用 程序 。 


异常 (exception) 介 平 用 户 错误 和 程序 bug 之 间 。 异 常 是 可 能 比较 
罕见 的 错误 ， 或 许 是 非 预 期 的 ， 但 从 异常 恢复 也 许 是 可 能 的 。 一 些 异 
种 反映 了 机 器 的 能 力 ， 如 算术 运算 上 海 和 下 溢 以 及 栈 游 出。 其 他 异 各 
表明 操作 系统 检测 到 的 状况 ， 这 些 状况 可 能 是 由 用 户 发 起 的 ， 如 按 下 
一 个 “中 断 ? 键 或 写 文件 时 遇 到 写 入 错误 。 在 UNIX 系 统 中 ， 此 类 异常 通 
名 由 信号 传送 ， 由 信号 处 理 程序 处 理 。 当 有 限 的 资源 用 尽 时 也 可 能 发 
异常 ， 如 应 用 程序 内 存 不 足 时 ， 或 用 户 指定 了 过 大 的 电子 表格 文件 
HF o 
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异常 由 应 用 程序 引发 ， 由 恢复 代码 处 理 (如 果 能 恢复 的 话 ) 。 腊 常 的 
作用 域 是 动态 的 : 当 一 个 异常 被 引发 时 ， 它 由 最 近 实 例 化 的 处 理 程序 
处 理 。 将 控制 权 转 移 到 处 理 程序 ， 类 似 于 非 局 部 的 goto， 实 例 化 处 理 程 
序 的 例 程 可 能 与 引发 异常 的 例 程 相距 颇 远 。 


一 些 语言 对 实例 化 处 理 程序 和 引发 异常 ， 提 供 了 内 建 的 设施 。 在 C 
语言 中 ， 标 准 库 函数 setjmp 和 longjmp 是 建立 结构 化 的 异常 处 理 设施 的 
基础 。 简 言 之 ，setjmp 实 例 化 一 个 处 理 程序 ， 而 longjmp3 引 发 一 个 异 
Eo 
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廊 ， 并 返回 由 malloc 返 回 的 指针 。 但 如 有 果 malloc 返 回 NULL 指 针 ， 这 表 
示 无 法 分 配 请 求 的 空间 ，allocate 会 引发 Allocate_Failed 异 常 。 异 常 本 壬 
声明 为 一 个 jmp_buf， 在 标准 头 文件 setjmp.h 中 : 


#include <setjmp.h> 


int Allocation_handled = 0; 


jmp_buf Allocate_Failed; 


除非 已 经 实例 化 一 个 处 理 程序 ， 否 则 Allocation handled 2, allocate 
在 3| 发 异常 之 前 会 检查 Allocation_handled: 


void *allocate(unsigned n) { 


void *new = malloc(n); 


if (new) 


return new; 
if (Allocation_handled) 
longjmp(Allocate_Failed, 1); 
assert(0); 


} 


在 分 配 失 败 且 没有 已 经 实例 化 的 处 理 程序 时 ，allocate 使 用 断言 来 实现 
已 检查 的 运行 时 错误 。 


处 理 程序 通过 调用 setjmp(Allocate_Failed) 实 例 化 ， 该 调用 返回 一 个 
整数 。setjmp 的 一 个 有 趣 特性 是 ， 它 可 能 返回 两 次 。 对 setjmp 的 调用 返 
回 零 。allocate 中 对 longjmp 的 调用 导致 setjmp 第 二 次 返回 ， 这 次 的 返回 
值 是 longjmp 的 第 二 个 参数 ， 在 上 述 的 例子 中 是 1。 因 而 ， 客 户 程 序 可 通 
过 测试 setmp 的 返回 值 处 理 异 名 : 


char *buf; 

Allocation_handled = 1; 

if (setjmp(Allocate_Failed)) { 
fprintf(stderr, "couldn't allocate the buffer\n"); 
exit (EXIT_FAILURE) ; 

} 

buf = allocate(4096); 

Allocation_handled = 0; 


在 setimp 返 回 0 时 ， 代 码 将 继续 执行 ， 调 用 allocate。 如 果 分 配 失 
败 ，allocate 中 的 longjmp 将 导致 stjimp 再 次 返回 ， 这 一 次 返回 值 为 1， 执 
行将 进入 另 一 个 分 文 ， 调 用 fprintf 和 exit ° 


文 个 例子 没有 处 理 藤 套 的 处 理 程 序 ， 如 果 上 述 的 代码 调用 了 
makebuffer (假定 ) ， 而 makebuffer 本 身 又 实例 化 了 一 个 处 理 程序 并 调 
用 了 allocate， 就 会 出 现 舰 套 的 处 理 程序 。 赂 套 的 处 理 程序 机 制 是 必须 
提供 的 ， 因 为 客户 程序 无 法 得 知 实现 因 自 身 的 目的 而 实例 化 的 那些 处 
理 程序 。 此 外 ，Allocation_handled 标 志 也 颇 为 别扭 ， 未 能 在 适当 的 时 
候 设置 或 清除 它 将 导致 混乱 。 下 一 节 描 述 的 Except 接 口 会 处 理 这 些 遗 
dns ° 


41 接口 


Except? O #setjmp/longjmp ix hti 42 EHRM KA, REE ZR 
和 图 数 相互 协作 ， 提 供 了 一 个 结构 化 的 异常 处 理 设施 。 它 并 不 完善， 
但 避免 了 上 文 所 述 的 错误 ， 而 其 中 的 安 很 清楚 地 标识 出 了 使 用 异常 的 
位 置 。 


rau 


E 
JP 


Except TI 类 型 的 全 局 或 静态 变量 : 


#ifndef EXCEPT_INCLUDED 
#define EXCEPT_INCLUDED 


#include <setjmp.h> 


#define T Except_T 
typedef struct T { 


const char *reason; 


} T; 


(exported types 


39) 


(exported variables 


39) 


(exported functions 


35) 


(exported macros 


35) 


#undef T 


#endif 
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串 。 在 发 生 末 处 理 的 异常 时 ， 将 输出 该 字符 串 。 


异常 处 理 程序 需要 操作 异常 的 地 址 。 因 而 异常 必须 是 全 局 或 静态 
变量 ， 使 得 其 地 址 可 以 唯一 地 标识 某 个 异 钊 。 将 部 
或 作为 参数 是 未 检查 的 运行 时 错误 。 
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(exported macros 


35) = 
#define RAISE(e) Except_raise(&(e), FILE, LINE __) 


(exported functions 


35) = 


void Except_raise(const T *e, const char *file,int line); 


加 Except_raise 传 递 的 e 值 为 NULL 指 针 ， 是 已 检查 的 运行 时 错误 © 


处 理 程序 通过 TRY-EXCEPT 和 TRY-FINALLY 语 句 实 例 化 ， 这 些 语 
句 用 宏 实 现 。 这 些 语句 处 理 舱 套 异 常 并 管理 异常 状态 数据 ° TRY- 
EXCEPT 语 句 的 语法 如 下 : 


TRY 


EXCEPT( e 


EXCEPT( e 


EXCEPT( e 


ELSE 


END_TRY 


TRY-EXCEPT 4) Ne, +e) >... en 等 异常 确定 处 理 程序 ， 并 执行 语 
句 S。 如 果 S 没 有 3 引发 异常 ， 将 凶 载 处 理 程序 并 继续 执行 END_TRY 之 后 
的 语句 。 如 果 S 引 发 了 一 个 异常 e，e 是 el -e 之 一 ， 那 么 S 的 执行 将 中 
断 ， 控 制 立 即 转移 到 e 对 应 的 EXCEPT 子 句 后 的 语句 。 各 个 处 理 程序 将 
和 卸载， 而 e 对 应 的 EXCEPT 子 句 中 的 处 理 程序 语句 Si 将 会 执行 ， 接 下 来 
将 继续 执行 END_TRY 之 后 的 代码 。 


如 果 S3 引 发 的 异常 并 非 e] -e PZ, PAA MB HH 
载 ，ELSE 后 的 语句 将 执行 ， 而 后 将 继续 执行 END_TRY 之 后 的 代码 。 
ELSE $A) ze PIAA ° 

如 果 S 引 发 的 异常 不 能 被 某 个 S; MDHE ALA BHR EEK, 1K 
异常 将 传递 到 此 前 执行 的 TRYEXCEPT 或 TRYFINALLY 语 句 建立 的 处 
理 程序 。 


TRY-END_TRY 在 语法 上 与 单个 语句 是 等 效 的 。TRY 引 入 一 个 新 的 
作用 域 ， 该 作用 域 在 对 应 的 END_TRY 处 结 


重 写 前 一 蔬 末 尾 的 例子 ， 即 可 说 明 这 些 安 的 用 法 。Allocate_Failed 
变 为 一 个 异常 ， 如 果 malloc 返 回 NULL 指 针 ，allocate 将 引发 该 异常 : 


Except_T Allocate_Failed = { "Allocation failed" }; 


void *allocate(unsigned n) { 


void *new = malloc(n); 


if (new) 
return new, 
RAISE(Allocate_Failed); 


assert(0); 


如 果 客 户 程 序 代码 想 要 处 理 该 异常 ， 则 需 在 TRY-EXCEPT 语 句 内 部 调 
用 allocate: 


extern Except_T Allocate Failed; 

char *buf; 

TRY 
buf = allocate(4096); 

EXCEPT (Allocate_Failed) 
fprintf(stderr, "couldn't allocate the buffer\n"); 
exit (EXIT_FAILURE) ; 


END_TRY; 


TRY-EXCEPT 语 句 是 用 setimp 和 longjmp 实 现 的 ， 因 此 标准 C 语 言 
关 这 些 函 数 用 法 的 警告 也 适用 于 TRY-EXCEPT 语 句 。 特 别 地 ， 如 果 S 改 
变 了 某 个 目 动 变量 ， 如 果 异 常 导 致 执行 转向 某 个 处 理 程序 语句 Si; 或 
END_TRY 之 后 的 代码 ， 那 么 该 修改 可 能 是 无 效 的 。 例 如 ， 下 述 代码 片 


段 


static Except_T e; 
int i = 0; 


TRY 


RAISE(e); 
EXCEPT(e) 
END_TRY; 
printf("%d\n", i); 


可 能 输出 0 或 1， 这 取决 于 setimp 和 longjmp 的 实现 相关 的 细节 。S$ 中 改变 
的 局 部 变量 必须 声明 为 volatile， 例 如 ， 将 的 声明 改 为 


volatile int i = 0; 
将 导致 上 述 的 例子 输出 1。 
TRY-FINALLY 语 句 的 语法 如 下 : 


TRY 


FINALLY 
S 


END_TRY 


如 果 S 没 有 引发 异常 ， 将 执行 S; 并 继续 执行 END_TRY 之 后 的 语句 。 如 
果 S 引 发 了 异常 ， 将 中 断 S 的 执行 ， 控 制 立 即 转移 到 $1 © ES, 执行 之 
Ja, SES, 执行 的 异常 将 被 再 次 引发 (re-raised) ， 使 之 可 以 被 此 前 
实例 化 的 处 理 程序 处 理 。 请 注意 ， 在 这 两 种 情况 下 Si 都 会 执行 。 处 理 
程序 可 以 用 RERAISE 宏 明确 地 再 次 引发 异常 ; 


(exported macros 


35) += 
#define RERAISE Except_raise(Except_frame.exception, \ 


Except_frame.file, Except_frame.line) 


TRY-FINALLY i= 4) “23 F : 


RERAISE; 
END_TRY; 
S 


请 注意 ， 无 论 S 是 否 引 发 了 异常 ， 都 会 执行 $1 ° 


TRY-FINALLY 语 句 的 一 个 目的 是 ， 在 发 生 异 常 时 给 客户 程序 一 个 
机 会 进行 “请 理 ”。 例 如 ， 


FILE *fp = fopen(...); 
char *buf; 
TRY 

buf = allocate(4096); 


FINALLY 
fclose(fp); 


END_TRY; 


无 论 分配 失 败 还 是 成 功 ， 上 述 代 码 都 会 关闭 打开 的 文件 p。 如 果 分 配 确 
实 失败 了 ， 那 么 必须 有 男 一 个 处 理 程序 来 处 理 Allocate_Failed ° 


如 果 TRY-FINALLY 语 句 中 的 $1 或 TRY-EXCEPT 语 句 中 的 处 理 程序 
引发 了 一 个 异常 ， 该 异常 将 由 此 前 实例 化 的 处 理 程序 处 理 。 


下 述 的 退化 语句 


TRY 


FINALLY 
/ 


END_TRY 


FRO Pada hae 


(exported macros 


35) += 


#define RETURN switch ( (pop 


41) ,0) default: return 


在 TRY 语句 内 部 需要 使 用 RETURN 宏 ， 而 不 是 retum 语 句 。 在 TRY- 
EXCEPT 或 TRY-FINALLY 语 句 内 部 执行 C 语 言 的 retum 语 句 是 一 个 未 检 
查 的 运行 时 错误 。 如 果 TRYEXCEPT 或 TRY-FINALLY 中 的 任何 语句 必 
须 执 行 返 回 ， 可 以 用 RETURN 宏 来 代 蔡 通常 的 returmn 语 句 。RETURN 宏 


中 使 用 了 switch 语 句 ， 使 得 RETURN 和 RETURN e 都 能 够 扩展 为 语法 正 
确 的 C 语 句 。<pop 41> 的 细节 在 下 一 节 描 述 。 


显然 ，Except 接 口中 的 宏 比 较 粗 糙 且 有 些 脆 弱 。 其 中 的 未 检查 的 运 
行 时 错误 特别 麻烦 ， 可 能 成 为 特别 难 发 现 的 bug。 对 大 多 数 应 用 程序 来 
说 ， 这 些 宏 是 足够 的 ， 因 为 异常 应 当 保 守 地 使 用 ， 在 大 型 应 用 程序 中 
也 只 应 该 有 少量 异 钊 。 如 采 异 般 的 数量 迅速 扩大 ， 这 通 音 标志 者 更 三 
重 的 设计 错误 。 


Ro 
42 ”实现 
Except 接 口中 的 安 和 函数 相互 协作 ， 维 护 了 一 个 结构 栈 ， 栈 中 的 各 


个 结构 实例 记录 了 异常 状态 和 实例 化 的 处 理 程序 。 该 结构 的 env 字 有 段 是 
一 个 jmp_buf， 由 setjmp 和 longjmp 使 用 ， 因 而 该 栈 能 够 处 理 舱 套 异 常 。 


(exported types 


39) = 
typedef struct Except_Frame Except_Frame; 
struct Except_Frame { 
Except_Frame *prev; 
jmp_buf env; 
const char *file; 
int line; 


const T *exception; 


(exported variables 


39) = 


extern Except_Frame *Except_stack; 


Except_stack 指 回 异 常 栈 顶 端的 异常 帧 ， 每 个 帧 的 prev 字 段 指向 前 一 个 
帧 。 如 前 一 万 中 RERAISE 的 定义 所 示 ， 引 发 异 各 会 将 异常 的 地 址 存 情 
在 exception 字 段 中 ， 并 将 异常 的 “坐标 ”( 即 引发 异常 的 文件 和 行 号 ) 存 
储 到 file 和 line 字 上 段 中 。 


TRY 子 句 将 一 个 新 的 Except_Frame 压 入 异常 栈 并 调用 setjmp ° 
Except_raise 由 RAISE 和 RERAISE 调 用 ， 该 函数 会 在 栈 顶 的 异常 帧 中 填 
写 exception、file 和 line 字 上段， 将 栈 顶 的 Except_Frame 弹 出 栈 ， 并 调用 
longjmp。EXCEPT 子 句 测 试 该 帧 的 exception 字 段 来 确定 应 用 哪个 处 理 
程序 。FINALLY 子 句 执 行 其 清理 代码 并 再 次 引发 弹出 的 异常 帧 中 存储 
的 异常 。 


如 果 发 生 异 常 后 ， 控 制 转移 到 END_TRY 子 句 时 异常 尚未 被 处 理 ， 
则 再 次 引发 该 异常 。 


TRY ` EXCEPT ` ELSE ` FINALLY#IEND_TRYJL* 248 SME, 
将 TRY-EXCEPT 语 名 转译 为 下 述 形式 的 语句 : 


do { 
创建 Except_Frame 并 压 栈 
if (从 setjmp 第 一 次 返回 ) { 
S 


i; 


) i 


yet 


} else if (# 


} else if (# 


} else { 


Ae 


i 


Ae 


T 


为 e 


为 e 


} 
if (发 生 异 常 但 没有 处 理 ) 
RERAISE; 


} while (0) 


do-while 语 句 使 得 TRY-EXCEPT 在 语法 上 与 普通 的 C 语 句 等 效 ， 这 样 它 
可 以 像 任 何其 他 C 语 句 一 样 使 用 。 例 如 ， 它 可 以 用 作 if 语 句 的 后 项 。 图 
4-1 给 出 了 一 般 的 TRY-EXCEPT 语 句 生 成 的 代码 。 阴 影 方 框 标明 了 TRY 
和 END_TRY 安 展开 得 到 的 代码 ， 方 框 标 记 了 EXCEPT 安 展开 得 到 的 代 
码 ， 而 双 线 框 标 记 了 ELSE 展 开 生 成 的 代码 。 图 4-2 给 出 了 TRY- 
FINALLY 语 句 展 开 生 成 的 代码 。 方 框 标 记 了 FINALLY 展 开 得 到 的 代 
码 。 


do { 
volatile int Except_flag; 
Except_Frame Except_frame; 
Except_frame.prev = Except_stack; 
Except_stack = &Except_frame; 
Except_flag = setjmp(Except_frame.env) ; 
if (Except_flag == Except_entered) { 


S 


if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 
else if (Except_frame.exception == &( el)) { 
Except_flag = Except_handled; 


if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 
else if (Except_frame.exception == &( ez)) { 
Except_flag = Except_handled; 


if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 


else if (Except_frame.exception == &(e,)) { 
Except_flag = Except_handled; 


if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 
else { 
Except_flag = Except_handled; 
So 
if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 
} 
if (Except_flag == Except_raised) 


Except_raise(Except_frame.exception, 
Except_frame.file, Except_frame.line); 
} while (0) 


图 4-1 TRY-EXCEPT 语 句 的 展开 


Except_Frame 的 空间 是 在 栈 上 分 配 的 ， 只 需 在 由 TRY 开 始 的 do- 
while 内 部 的 复合 语句 中 声明 一 个 该 类 型 的 局 部 变量 即 可 : 


(exported macros 


35) += 

#define TRY do { \ 
volatile int Except_flag; \ 
Except_Frame Except_frame; \ 


(push 


41) \ 
Except_flag = setjmp(Except_frame.env); \ 


if (Except_flag == Except_entered) { 


do { 
volatile int Except_flag; 
Except_Frame Except_frame; 
Except_frame.prev = Except_stack; 
Except_stack = &Except_frame; 
Except_flag = setjmp(Except_frame.env) ; 
if (Except_flag == Except_entered) { 


(Except_fl Except_entered) 
Except_stack Except_stack->prev; 


(Except_flag == Except_entered) 
Except_flag = Except_finalized; 


if (Except_flag == Except_entered) 
Except_stack = Except_stack->prev; 


if (Except_flag == Except_raised) 
Except_raise(Except_frame.exception, 
Except_frame.file, Except_frame.line) ; 
} while (0) 


图 4-2 ”TRY-FINALLY 语 句 的 展开 


一 个 TRY 语句 内 有 4 种 状态 ， 如 以 下 的 枚 举 标 识 符 所 示 。 


(exported types 


39) += 
enum { Except_entered=0, Except_raised, 


Except_handled, Except_finalized }; 


setjimp 的 第 一 次 返回 将 Except_flag 设 置 为 Except_entered， 表 示 已 经 进入 
TRY 语句 并 将 一 个 异 第 帧 压 入 异 第 栈 。Except_entered 必 须 为 入， 因为 
第 一 次 调用 setjmp 返 回 零 ， 此 后 从 setjimp 返 回 时 会 将 该 标志 设置 为 
Except_raised ， 这 表示 发 生 了 异常 。 处 理 程序 将 Except_flag 设 置 为 
Except_handled， 表 示 它 们 已 经 处 理 了 该 异常 。 


Except_Frame 压 入 异常 栈 时 ， 只 需 将 其 添加 到 Except_stack 指 加 的 
Except_Frame 结 构 链 表 的 头 部 ， 而 从 链表 头 部 删除 异 常 帧 ， 即 表示 将 栈 
顶 的 异常 帧 出 栈 。 


(push 
41) = 


Except_frame.prev = Except_stack; \ 


Except_stack = &Except_frame; 


(pop 


41) = 


Except_stack = Except_stack->prev 


EXCEPT 子 句 将 变 为 图 4-1 中 给 出 的 else-if 语 句 。 


(exported macros 


35) += 
#define EXCEPT(e) \ 


(pop if this chunk follows S 


42) \ 
} else if (Except_frame.exception == &(e)) { \ 


Except_flag = Except_handled; 
(pop if this chunk follows S 


42) = 


if (Except_flag == Except_entered) (pop 


41) ; 


使 用 安 来 实现 异 利 将 导致 一 些 扭曲 的 代码 ， 如 代码 块 <pop if this chunk 
follows S 42> 所 示 。 该 代码 块 出 现在 上 述 EXCEPT 定 义 中 的 else-if 之 前 ， 
仅 当 处 于 第 一 个 EXCEPT 子 句 中 ， 才 会 弹出 异常 栈 顶 部 的 异常 帧 。 如 有 果 
在 执行 S 时 没有 发 生 异 常 ，Except_flag 的 值 仍然 是 Except_entered， 那 么 
在 控制 到 达 if 语 句 时 ， 将 弹出 异常 栈 顶 部 的 异常 帧 。 而 第 二 个 和 后 面 的 
EXCEPT 子 句 则 跟随 在 处 理 程序 之 后 ， 此 时 Except flag 已 经 变 为 
Except_handled。 对 于 这 些 子 句 来 说 ， 异 锅 栈 顶部 的 异常 帧 已 经 弹出 ， 
代码 块 <pop if this chunk follows S 42> 中 的 让 语句 防止 了 再 次 弹出 。 


ELSE 子 句 与 EXCEPT 子 名 类似， 但 将 else-if 改 为 else: 


(exported macros 


35) += 
#define ELSE \ 


(pop if this chunk follows S 


42) \ 
} else { \ 
Except_flag = Except_handled; 


同样 ，FINALLY 子 名 也 类 似 于 ELSE 子 多， 只 是 没有 else 语 句 而已: 控 
制 直接 进入 到 清理 代码 。 


(exported macros 


35) += 
#define FINALLY \ 


(pop if this chunk follows S 


42) \ 
aN 
if (Except_flag == Except_entered) \ 
Except_flag = Except_finalized; 


这 里 将 Except_flag 从 Except_entered 改 变 为 Except_finalized， 表 示 没 有 发 
生 异 常 ， 但 进入 到 了 FINALLY 子 句 。 如 果 发 生 了 异常 ， 那么 


) 


Except_flag 仍 然 保持 Except_raised 的 值 不 变 ， 这 样 在 清理 代码 执行 之 后 
可 以 再 次 引发 异常 。 在 END_TRY 中 ， 会 判断 Except_flag 是 否 等 于 
Except_raised， 如 有 果 是 的 话 ， 则 再 次 引发 异常 。 如 采 没 有 发 生 异 常 ， 
Except_flag 将 是 Except_entered 或 Except_finalized: 


(exported macros 


35) += 
#define END_TRY \ 


(pop if this chunk follows S 


42) \ 


} if (Except_flag == Except_raised) RERAISE; \ 
} while (0) 


except.c 中 Except_raise 的 实现 ， 是 拼图 的 最 后 一 厂 : 


(except.c 


#include <stdlib.h> 
#include <stdio.h> 

#include "assert.h" 
#include "except.h" 


#define T Except_T 


Except_Frame *Except_stack = NULL; 


void Except_raise(const T *e, const char *file, 
int line) { 


Except_Frame *p = Except_stack; 


assert(e); 
if (p == NULL) { 


(announce an uncaught exception 


43) 

} 

p->exception = €; 

p->file = file; 

p->line = line; 

(pop 
41) ; 

longjmp(p->env, Except_raised); 
} 


如 果 异 常 栈 顶 部 有 一 个 Except_Frame， 则 Except_raise 填 写 其 exception、 

file 和 jline 字 段 ， 从 栈 中 弹出 该 异常 帧 ， 并 调用 longjmp。 与 之 对 应 的 
setjmp 的 调用 将 返回 Except_raised， 在 TRY-EXCEPT 或 TRY-FINALLY 语 
名 中 ，setjimp 返 回 的 Except_raised 接 下 来 会 赋值 给 Except_flag， 然 后 执 
行 适 当 的 处 理 程 序 。Except_raise 会 从 异常 栈 栈 顶 弹出 一 个 异常 帧 ， 这 
样 ， 如 果 某 个 处 理 程序 中 发 生 了 异常 ， 该 异常 将 由 当前 异常 帧 顶部 的 
异常 帧 所 对 应 的 TRY EXCEPT 语 名 处 理 。 


如 果 异 常 栈 是 空 的 ， 即 将 引发 的 异常 不 会 有 处 理 程序 ， 因 此 
Except_raise 别 无 选择 ， 只 能 宣布 一 个 未 处 理 的 异常 并 停止 程序 的 执 
全 


(announce an uncaught exception 


43) = 
fprintf(stderr, "Uncaught exception"); 
if (e->reason) 

fprintf(stderr, " %s", e->reason); 
else 

fprintf(stderr, " at Ox%p", e); 
if (file && line > 0) 

fprintf(stderr, " raised at %s:%d\n", file, line); 
fprintf(stderr, "aborting...\n"); 
fflush(stderr); 
abort(); 


abort PNECEKZT ATMA HBT, ANRA Splat 
的 副 效应 。 例 如 ， 它 可 能 局 动 一 个 调试 占 或 只 十 进行 内 存 转 储 。 


43 断言 


C 语 言 标 准 要 求 头 文件 asserth 将 assert(e@) 定 义 为 安 ， 来 提供 诊断 信 

已 。assert(e) 会 计算 表达 式 e 的 值 ， 如 果 e 为 0， 则 加 标准 错误 输出 
(stderr) 写 出 诊断 信息 ， 并 调用 标准 库 函 数 abort 放 弃 程序 的 执行 。 诊 
断 信 息 包含 失败 的 断言 〈《 即 表达 式 e 的 文本 ) 和 断言 (e) 出 现 的 坐标 


(文件 和 行 号 ) 。 该 信息 的 格式 是 由 具体 实现 定义 的 。assert(0) 是 一 个 
很 好 的 方法 ， 用 于 指明 “不 可 能 发 生 ” 的 情况 。 当 然 ， 也 可 以 使 用 如 下 
的 断言 : 


assert(!"ptr==NULL -- can't happen") 


这 显示 了 更 有 意义 的 诊断 信息 。 


assert.h 也 使 用 NDEBUG 安 ， 但 并 未 定义 。 如 采 定 义 了 NDEBUG， 
那么 assert(e) 必 须 等 效 于 空 表达 式 ((void)0) 。 这 样 ， 程 序 员 可 以 通过 
定义 NDEBUG 并 重新 编译 来 关闭 断言 。 由 于 e 可 能 不 被 执行 ， 很 重要 的 
一 点 是 ，e 绝 不 应 该 成 为 有 副 效 应 的 计算 过 程 《如 赋值 ) 的 一 个 必要 部 


分 。 


assert(e) 是 一 个 表达 式 ， 因 此 assert.h 的 大 多 数 版 本 在 逻辑 上 都 等 效 
于 


#undef assert 

#ifdef NDEBUG 

#define assert(e) ((void)0) 

#else 

extern void assert(int e); 

#define assert(e) ((void)((e)|| \ 
(fprintf(stderr, "%s:%d: Assertion failed: %s\n", \ 
—FILE_, (int) LINE , #e), abort(), 0))) 


#endif 


(assert.h 的 “真实 ”版 本 与 上 述 代码 不 同 ， 因 为 使 用 fprintf 和 stderr 需 要 包 
仿 stdio.h， 这 是 不 允许 的 。) Bile, e, 的 表达 式 通 常 出 现在 条 件 判断 


中 ， 如 站 语句 ， 但 它 也 可 以 作为 单独 的 语句 出 现 。 作 为 单独 的 语句 ， 该 
表达 式 的 效 朱 等 效 于 下 述 语 句 : 


if (!(e 


assert 的 定义 使 用 了 ei lle。 ， 这 是 因为 assert(@ 必 须 扩 展 为 表达 式 ， 而 不 
EEA ° e 是 一 个 逗号 表达 式 ， 其 结果 是 一 个 什 ， 这 是 | 运算 符 的 要 
求 ， 整 个 表达 式 最 终 转 换 为 void， 是 因为 C 语 言 标 准 规定 assert(e) 没 有 返 
回 值 。 在 标准 的 C 预 处 理 器 中 ， 枯 将 转换 为 一 个 字符 串 常 量 ， 字 符 串 的 
内 容 是 表达 式 e 在 源 代 码 中 的 文本 。 


Assert 授 口 按 标准 的 规定 定义 了 assert(e)， 但 在 断言 失败 时 将 引发 
Assert_Failed 异 常 ， 而 不 是 放弃 执行 ， 男 外 也 没有 提供 表达 式 e 的 文 
本 : 


(assert.h 


= 
#undef assert 


#ifdef NDEBUG 


#define assert(e) ((void)0) 
#else 

#include "except.h" 

extern void assert(int e); 


#define assert(e) ((void)((e)||(RAISE(Assert_Failed),0))) 
#endif 


(exported variables 


39) += 


extern const Except_T Assert_Failed; 


Assert 模 仿 了 标准 的 定义 ， 这 样 Assert 和 标准 提供 的 两 个 asserth 头 文件 
是 可 互 换 的 ， 这 也 是 Assert_Failed 出 现在 except.h 中 的 原因 。 该 接口 的 
实现 很 简单 ; 


(assert.c 


= 


#include "assert.h" 
const Except_T Assert_Failed = { "Assertion failed" }; 


void (assert)(int e) { 


assert(e); 


在 函数 定义 中 ， 围 绕 范 数 名 assert 的 括号 防止 宏 assert 在 此 展开 ， 因 而 按 
接口 的 规定 定义 了 该 画 效 。 


如 采 客 户 程序 有 Failed， 那 么 断言 失败 将 导致 程序 放 
弃 执 行 ， 并 输出 一 条 信息 ， 如 下 所 示 : 


Uncaught exception Assertion failed raised at stmt.c:201 


aborting... 


这 在 功能 上 与 assert.h 特 定 于 机 右 的 版 本 所 输出 的 诊断 信息 是 等 效 的 。 


将 断言 打包 起 来 ， 使 之 在 失败 时 引发 异常 ， 这 种 做 法 有 助 于 解决 
在 产品 程序 中 处 理 断 言 面 临 的 两 难处 境 。 一 些 程序 员 建 议 不 要 将 断言 
留 在 产品 程序 中 ，asserth 中 对 NDEBUG 的 标准 用 法 支持 了 该 建议 。 关 


于 删除 断言 的 原因 ， 最 第 提 到 的 两 个 原因 古 效 率 和 含义 模糊 的 诊断 信 
= 


JON 


断言 确实 要 人 花费 时 间 ， 因 此 删除 断言 只 会 使 程序 更 快 。 可 以 测量 
有 无 断言 情况 下 执行 时 间 的 差别 ， 但 差别 通常 很 小 。 因 为 效率 原因 而 
删除 断言 ， 与 改进 执行 时 间 的 其 他 任何 改变 都 是 类 似 的 : 仅 在 得 到 客 
观测 量 结果 的 文 持 时 ， 才 应 该 进行 改变 。 


在 测量 表明 断言 开销 太 高 时 ， 有 时 可 以 移动 断言 的 位 置 ， 在 不 失 
去 断言 好 处 的 情况 下 降低 其 开销 。 例 如 ， 假 定 h 包 含 了 一 个 开销 过 高 的 
断言 ，f 利 g 都 调用 了 h， 测 量 表 明 大 多 数 时 间 开销 是 因为 来 目 g 的 调用 阁 
成 的 ，g 在 一 个 循环 中 调用 了 h。 谍 慎 的 分 析 可 能 会 揭示 这 样 的 可 能 
性 ， 即 h 中 的 断言 可 以 移 到 f 和 和 g， 在 g 中 置 于 循环 之 前 。 


断言 的 更 严重 的 问题 在 于 ， 它 们 会 导致 输出 诊断 信息 ， 如 上 文 的 
断言 失败 诊断 ， 这 将 迷惑 用 户 。 但 删除 断言 ， 无 疑 用 更 挛 重 的 问题 
代替 了 诊断 信息 。 在 断言 失败 时 ， 程 序 束 是 错误 的 。 如 有 果 程 序 继续 执 
行 ， 其 结 琳 是 不 可 预测 的 ， 很 可 能 有 骨 演 。 如 下 的 信息 : 


General protection fault at 3F60:40EA 


at 


Segmentation fault -- core dumped 


与 上 文 显示 的 断言 失败 诊断 信息 没 多 大 差别 。 更 糟糕 的 是 ， 在 断言 失 
败 之 后 继续 执行 〈 而 不 停止 ) 的 程序 可 能 会 破坏 用 户 的 数据 ， 例 如 ， 
编辑 器 如 果 在 断言 失败 后 继续 执行 ， 就 可 能 破坏 用 户 的 文件 。 这 种 行 
Fie A RIA ° 


断言 失败 时 ， 诊 断 信息 含义 模糊 的 问题 可 以 这 样 解决 ， 在 程序 的 
产品 版 本 顶层 代码 中 放 一 个 TRY-EXCEPT 语 句 ， 捕 获 所 有 的 未 捕获 异 
常 ， 并 输出 更 有 帮助 的 诊断 信息 。 例 如 : 


#include <stdlib.h> 
#include <stdio.h> 


#include "except.h" 


int main(int argc, char *argv[]) { 
TRY 
edit(argc, argv); 
ELSE 


fprintf(stderr, 


"An internal error has occurred from which there is " 
"no recovery.\nPlease report this error to " 
"Technical Support at 800-777-1234.\nNote the " 
"following message, which will help our support " 
"staff\nfind the cause of this error.\n\n") 

RERAISE; 
END_TRY; 
return EXIT_SUCCESS; 


在 出 现 未 捕获 的 异常 时 ， 将 由 该 处 理 程序 接手 ， 指 导 用 户 报告 bug， 然 
后 再 输出 合 义 模糊 的 异 闻 诊断 信息 。 对 于 断言 失败 ， 它 会 输出 


An internal error has occurred from which there is no recovery. 
Please report this error to Technical Support at 800-777-1234. 
Note the following message, which will help our support staff 


find the cause of this error. 


Uncaught exception Assertion failed raised at stmt.c:201 


aborting... 


44 扩展 阅读 


有 几 种 语言 内 建 了 异常 机 制 ， 例 子 包 括 Ada、Modula-3 [Nelson, 
1991] ` Eiffel [Meyer ， 1992] 、 和 C++[Ellis and Stroustrup, 1990] ° 
Except 接 口 的 TRY-EXCEPT 语 名 模仿 了 Modula-3 的 TRY-EXCEPT 语 铝 。 


对 C 语 言 ， 已 经 提议 了 几 种 异常 机 制 ， 它 们 都 提供 了 类 似 TRY 
EXCEPT 语 句 的 功能 ， 语 法 和 语义 方面 间或 稍 有 变化 。[Roberts，1989] 
一 书 描述 了 一 种 用 于 异常 设施 的 接口 ， 与 Except 提 供 的 接口 是 等 效 的 。 
他 的 实现 也 与 本 书 类 似 ， 但 在 引发 异常 时 更 为 高 效 。Except_raise 调 用 
longjmp 将 控制 转移 到 处 理 程序 。 如 果 处 理 程序 没有 处 理 该 异常 ， 会 再 
次 调用 Except_raise， 进 而 调用 longjmp。 如 果 该 异常 的 处 理 程序 位 于 异 
常 栈 顶 部 之 下 第 N 帧 ， 那 么 需要 调用 Except_raise 和 longjmp 了 范 数 N 次 。 
Roberts 的 实现 只 需 一 次 调用 ， 即 可 找到 适当 的 处 理 程序 ， 或 跳 转 到 第 
一 个 FINALLY 子 句 。 为 做 到 这 一 点 ， 需 要 对 TRY-EXCEPT 语 句 中 异常 
处 理 程序 的 数目 设置 一 个 上 限 。 一 些 C 语 言 编译 器 (如 微软 公司 提供 
的 ) ,提供 了 结构 化 异常 设施 作为 语言 扩展 。 


一 些 语言 有 内 建 的 断言 机 制 ，Eiffel 就 是 一 个 例子 。 大 多 数 语言 使 
用 与 C 语 言 的 assert 宏 类 似 的 机 制 ， 或 用 其 他 编译 器 指令 来 指定 断言 。 
例如 ，Digital 的 Modula-3 编 译 絮 可 以 识别 形 如 <*ASSERT expression*> 
的 注释 ， 将 其 作为 指定 断言 的 编译 指示 。[Maguire，1993] 一 书 用 一 整 
章 的 篇 幅 讨论 C 程 序 中 断言 的 使 用 。 


45 “习题 


41 一 个 语句 同时 包含 EXCEPT 和 FINALLY 子 句 ， 该 语句 会 有 何 
种 效果 ? 以 下 是 这 种 形式 的 语句 : 


TRY 
S 


EXCEPT(e 


EXCEPT(e 


FINALLY 
S 


END_TRY 


4.2 修改 Except 的 接口 和 实现 ， 使 得 只 调用 一 次 longjmp， 即 可 到 
达 适 当 的 处 理 程序 或 FINALLY 子 句 ， 如 上 文 所 述 ，[Roberts，1989] 一 
书 就 实现 了 这 种 处 理 方式 。 


4.3 ” UNIX 系统 使 用 信和 号 来 通知 一 些 异 弟 情 况 ， 如 浮 点 上 次 和 用 户 
殴 击 “中 断 ” 键 。 请 研究 UNIX 信 和 号 指令 系统 ， 并 对 信和 号 处 理 程序 设计 实 
现 一 种 接口 ， 将 信号 转换 为 异种 。 


4.4 ”一些 系 统 在 程序 异 芝 结束 时 输出 调用 栈 回 调 。 这 给 出 了 程序 
异 闸 结束 时 过 程 调 用 栈 的 状态 ， 它 可 能 包括 过 程 名 和 参数 。 改 变 
Except_raise， 使 之 在 通知 未 捕获 的 异常 时 输出 调用 栈 回 闹 。 读 者 也 许 
能 够 输出 调用 的 过 程 名 和 行 号 ， 这 取决 于 读者 计算 机 上 的 调用 约定 。 
例如 ， 调 用 栈 回 渊 信息 可 能 如 下 所 未: 


Uncaught exception Assertion failed 
raised in whilestmt() at stmt.c:201 
called from statement() at stmt.c:63 
called from compound() at decl.c:122 
called from funcdefn() at decl.c:890 
called from decl() at decl.c:95 
called from program() at decl.c:788 
called from main() at main.c:34 


aborting... 


4.5 在 一 些 系统 上 ， 程 序 在 检测 到 错误 时 可 以 对 本 身 调用 调试 
二 。 这 种 设施 在 开发 期 间 特 别 有 用 ， 这 期 间断 言 失败 的 情况 很 贡 见 。 


如 果 你 的 系统 文 持 这 种 设施 ， 可 修改 Except_raise， 使 之 在 通知 未 捕获 
的 异常 后 不 再 调用 abort， 而 是 启动 调试 器 。 设 法 使 你 的 实现 能 够 在 产 
品 程序 中 工作 ， 即 ， 使 之 能 够 在 运行 时 判断 是 否 调用 调试 器 。 


46 如果 你 可 以 接触 到 C 编 译 右 的 源 代 人 码 如 1lcc [Fraser and 
Hanson, 1995], wieAUAgH ar, EZE > TRY HAJ ` RAISE 
以 及 RERAISE 表 达 式 ， 语 法 和 语义 如 本 章 所 述 ， 但 不 能 使 用 setjmp 和 
longjmp。 你 需要 实现 一 种 类 似 setjmp 和 longjmp 的 机 制 ， 只 是 该 机 制 专 
用 于 异常 处 理 。 例 如 ， 通 常 可 以 只 用 几 个 指令 来 实例 化 处 理 程序 。 提 
HEIs: 这 个 习题 是 一 个 较 大 的 项 目 。 


第 5 章 ”内 存 管理 


所 有 非 平 凡 的 C 程 序 都 会 在 运行 时 分 配 内 存 。 标 准 C 库 提供 了 4 个 
内 存 管理 例 程 : malloc、calloc、realloc 和 free。Mem 接 口 将 这 些 例 程 重 
渐 包 装 为 一 组 安 和 例 程 ， 使 之 不 那么 容易 出 错 ， 并 提供 了 一 些 额 外 的 
功能 


遗憾 的 是 ，C 程 序 中 内 存 管理 方面 的 bug 很 常见 ， 而 且 通 常 难于 诊 
上 晰 和 修复 。 例 如 ， 下 述 代码 片段 


p = malloc(nbytes); 


free(p); 


调用 malloc 分 配 nbytes 长 的 内 存 块 ， 将 该 内 存 块 第 一 个 字 世 的 地 址 赋值 
给 p， 使 用 p 和 它 指 同 的 内 存 块 ， 最 终 释 放 该 内 存 块 。 在 调用 free 之 
后 ，p 包 含 一 个 基 挂 指针 一 一 指 癌 逻 辑 上 不 存在 的 内 存 的 指针 。 搂 下 来 
人 Bik, ， 但 如 果 该 内 存 块 没 有 因 其 他 原因 而 再 次 分 配 出 
去 ， 这 个 错误 可 能 不 会 被 检测 到 。 这 种 行为 是 使 得 此 类 内 存 访问 错误 
难于 诊断 的 原因 :在 检测 到 错误 时 ， 错 误 骏 露 的 时 间 和 位 置 可 能 与 错 
误 的 来 源 距离 颇 远 。 


下 述 代码 片段 


p = malloc(nbytes); 


free(p); 


free(p); 


说 明了 另 一 个 错误 : RSA ° ERR SBD AE 
数 使 用 的 数据 结构 ， 但 在 下 一 次 调用 有 茶 个 内 存 管理 函数 之 前 ， 
误 可 能 不 会 被 检测 到 。 


另 一 个 错误 是 释放 并 非 由 malloc、calloc 或 realloc 分 配 的 内 存 。 例 
如 ， 考 虑 下 述 程序 : 


char buf[20], *p; 

if (n >= sizeof buf) 
p = malloc(n); 

else 


p = buf; 


free(p); 


上 述 程 序 的 本 意 征 在 n 小 于 buf 的 长 度 时 避免 分 配 内 存 ， 但 即使 p 指 回 
buf 时 ， 上 述 程 序 也 会 错误 地 调用 free。 该 错误 通常 也 会 破坏 用 于 内 存 
管理 的 数据 结构 ， 而 且 直 到 以 后 才能 发 现 。 


最 后 ， 考 虑 下 述 函 数 : 


void itoa(int n, char *buf, int size) { 


char *p = malloc(43); 


sprintf(p, "%d", n); 


if (strlen(p) >= size - 1) { 
while (--size > 0) 
“buf++ = '*'; 
*buf = '\0'; 
} else 
strcpy(buf, p); 
} 


将 整数 n 的 十 进 制 字符 串 表 示 填 充 到 buf[0..size-1] 中 ， 如 有 果 该 表示 需要 
的 字符 数目 大 于 size-1， 则 用 星 号 填充 buf。 该 代码 看 起 来 很 健壮 ， 但 
它 至 少 包 含 两 个 错误 。 第 一 ， 如 果 分 配 内 存 失 败 malloc 返 回 NULL 指 
针 ， 该 代码 没有 检测 这 种 情况 。 第 二 ， 该 代码 产生 了 一 个 内 存 泄 漏 : 
它 没 有 释放 分 配 的 内 存 。 程 序 每 次 调用 itoa 时 ， 内 存 会 被 逐渐 消耗 。 如 
果 经 常 调用 itoa， 程 序 最 终 将 用 尽 内 存 并 失败 。 男 外 ， 当 size 小 于 2 时 
itoa 工 作 正常 ， 但 它 会 将 buf[0] 设 置 为 零 字 符 。 或 许 更 好 的 设计 需要 要 
求 size 大 于 等 于 2， 并 通过 一 个 已 检查 的 运行 时 错误 来 强制 实施 该 约 
p o 


Mem 接 口中 的 宏和 例 程 针 对 上 述 各 种 内 存 管理 错误 提供 了 一 些 保 
护 。 但 它们 不 能 消除 所 有 这 些 错误 。 例 如 ， 它 们 无 法 防止 反 引 用 已 破 
坏 的 指针 或 使 用 指针 指向 超出 作用 域 的 局 部 变量 。C 语 言 初 学 者 经 第 
犯 后 一 个 错误 ， 下 面 给 出 的 一 个 表面 看 起 来 更 简单 的 itoa 版 本 就 是 一 个 
pI: 


char *itoa(int n) { 


char buf[43]; 


sprintf(buf, "%d", n); 


return buf; 


itoa 返 回 其 局 部 数组 buf 的 地 址 ， 但 在 itoa 返 回 后 ，buf 就 不 再 存在 了 。 


5.1 #0 


Mem 接 口 导 出 了 以 下 异 第 、 例 程 和 宏 : 


(mem. h 


》 三 
#ifndef MEM INCLUDED 
#define MEM INCLUDED 


#include "except.h" 


(exported exceptions 


51) 


(exported functions 


51) 


(exported macros 


51) 


#endif 


Mem 提 供 的 分 配 函 数 类 似 于 标准 C 库 ， 但 它们 不 接受 零 长 度 ， 也 
不 返回 NULL 指 针 : 


(exported exceptions 


51) = 


extern const Except_T Mem_Failed; 
(exported functions 


51) = 
extern void *Mem_alloc (long nbytes, 
const char *file, int line); 
extern void *Mem_calloc(long count, long nbytes, 


const char *file, int line); 


Mem_alloc 分 配 一 块 至 少 为 nbytes 长 的 内 存 ， 并 返回 指向 其 中 第 一 个 字 
的 指针 。 该 内 存 块 对 齐 到 地 址 边界 ， 能 够 适合 于 具有 最 严格 对 齐 要 
求 的 数据 。 该 块 的 内 容 是 未 初始 化 的 。 如 采 nbytes 的 值 不 是 正 数 ， 这 


就 是 一 个 已 检查 的 运行 时 错误 。 


Mem_calloc 分 配 一 个 足够 大 的 的 内 存 块 ， 可 以 容纳 一 个 包含 count 
个 元 素 的 数组 ， 每 个 数组 项 的 长 度 为 nbytes ， 并 返回 指向 第 一 个 数组 
元 素 的 指针 。 该 内 存 块 的 对 齐 与 Mem_alloc 类 似 ， 其 内 容 初始 化 为 0。 
NULL 指 针 和 0.0 不 一 定 由 0 表示 ， 因 此 Mem_calloc 可 能 不 能 正确 地 初始 
化 它们 。count 或 nbytes 不 是 正 数 ， 是 已 检查 的 运行 时 错误 。 


Mem alloc 和 Mem_calloc 的 最 后 数 是 函数 被 调用 处 的 文件 
名 和 行 号 。 这 些 信 息 由 以 下 安 提 供 ， 这 是 调用 这 些 函 数 的 通常 方式 。 


w 


(exported macros 


51) = 
#define ALLOC(nbytes 


) \ 
Mem_alloc((nbytes 


), _FILE , __LINE_) 


#define CALLOC(count, nbytes 


) \ 

Mem_calloc( (count 
), (nbytes 
)， FILE, LINE) 


如 R Mem_alloc 或 Mem_calloc 无 法 分 配 所 要 的 内 存 ， 则 引发 
Mem_Failed 异 常 ， 并 将 人 e 和 line 参 数 传递 给 Except_raise， 这 样 ， 抛 出 
的 异常 束 给 出 了 调用 相应 芳 数 的 位 置 。 如 采 亿 e 为 NULL 指 针 ， 
mem_alloc 和 Mem_calloc 将 提供 其 实现 内 部 引发 Mem_Failed 寞 常 的 位 
置 o 


许多 分 配 操 作 具 有 下 述 形 式 : 


struct T *p; 


p = Mem_alloc(sizeof (struct T)); 
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法 的 一 个 更 好 的 版 本 如 下 : 


p = Mem_alloc(sizeof *p); 


对 void 指针 以 外 的 任何 指针 类 型 ， 都 可 以 使 用 sizeof*p 代 替 sizeof(struct 
T)，sizeof*p 的 好 处 在 于 ， 这 种 用 法 不 依赖 指针 指 癌 的 类 型 。 如 有 果 *p 的 
类 型 发 生 了 改变 ， 这 种 分 配方 式 仍然 是 正确 的 ， 但 使 用 sizeof(struct T) 
的 分 配 则 必须 改变 ， 以 反映 *p 类 型 的 变化 出 。 即 


p = Mem alloc(sizeof (struct T)); 


3 pie tall struct T 实 例 的 指针 时 ， 才 是 正确 的 。 如 果 p 改 为 指 癌 
男 一 个 结构 的 指针 而 不 更 新 该 调用 ， 那 么 上 述 调 用 有 可 能 分 配 过 多 的 
内 存 ， 这 会 当 费 空间 ， 也 有 可 能 分 配 太 少 的 内 存 ， 这 会 造成 三 重 的 损 
失 ， 因 为 客户 程序 访问 p 指 疝 的 结构 时 ， 可 能 访问 到 未 分 配 的 内 存 。 

这 种 内 存 分 配 的 惯用 法 是 如 此 之 滑 见 ， 以 至 于 Mem 接 口 提供 了 
安 ， 将 内 存 分 配 和 赋值 封 钱 起 来 : 


(exported macros 


51) += 
#define NEW(p 


) ((p 


) = ALLOC((long)sizeof *(p 


))) 
#define NEWO(p 


) ((p 


) = CALLOC(1, (long)sizeof *(p 


))) 


NEW(p) 分 配 了 一 个 未 初始 化 的 内 存 块 以 容纳 *p， 并 将 p 设 置 为 该 块 的 
地 址 。NEWO0(p) 完 成 的 工作 类 似 ， 还 将 内 存 块 清 零 。 提 供 NEW 时 有 下 
述 假 设 : 大 多 数 客 户 程序 在 分 配 内 存 块 后 会 立即 初始 化 。 传 递 给 编译 
时 运算 符 sizeof 的 参数 只 用 于 获取 其 类 型 ， 运 行 时 不 会 计算 其 值 。 因 此 
NEW 和 NEW0 只 会 计算 p 一 次 ， 使 用 具有 副 效 应 的 表达 式 作 为 这 两 个 
宏 的 实 参 是 安全 的 ， 例 如 NEW(ali++])。 


malloc 和 calloc 的 参数 类 型 为 size_t，sizeof 得 到 的 和 常数， 其 类 型 也 
是 size_t。size_t 类 型 是 一 个 无 符号 整数 类 型 (integral type) ， 能 够 表 
示 可 声明 的 最 大 对 象 的 大 小 ， 在 标准 库 中 指定 对 象 大 小 时 都 会 使 用 该 
类 型 。 实 际 上 ，size {t 或 者 是 unsigned int ， 或 者 是 unsigned long ° 
mem_alloc 和 Mem_calloc 使 用 int 类 型 参数 ， 避 免 将 负数 传递 给 无 符号 参 
数 可 能 造成 的 错误 。 例 如 ， 


int n = -1; 


p = malloc(n); 


显然 是 一 个 错误 ， 但 malloc 的 许多 实现 不 会 捕获 该 错误 ， 因 为 当 -1 转 
换 为 size_t 时 ， 通 常 是 一 个 非常 大 的 无 符号 值 。 


内 存 通过 Mem_free 释 放 : 


(exported functions 


51) += 
extern void Mem_free(void *ptr, 
const char *file, int line); 


(exported macros 


51) += 
#define FREE(ptr 


) ((void) (Mem_free( (ptr 


)，\\ 
FILE_, _LINE_), (ptr 


yO) 


Mem_free 需 要 一 个 指 癌 被 释放 内 存 块 的 指针 作为 参数 。 如 果 ptr 不 
为 NULL 指 针 ， 那 么 Mem free 将 释放 该 内 存 块 ， 如 果 ptr 是 NULL 指 
针 ，Mem_free 没 有 效果 。FREE 宏 也 需要 一 个 指向 内 存 块 的 指针 作为 


参数 ， 它 调用 Mem_free 释 放 该 块 ， 并 将 ptr 设 置 为 NULL 指 针 ， 如 2.4 市 
所 述 ， 这 样 做 有 助 于 避免 功 挂 指针 。 由 于 ptr 指 回 的 内 存 被 FREE 释放 
后 ，ptr 被 设置 为 NULL 指 针 ， 此 后 对 ptr 进 行 反 引 用 ， 通 常会 导致 程序 
因 某 种 寻 址 错误 而 朋 江 。 这 种 确定 性 的 错误 ， 比 反 引 用 莫 挂 指针 导致 
的 不 可 预测 的 行为 要 好 得 多 。 请 注意 ，FREE 会 多 次 对 ptr 求 值 。 
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述 。“ 移 核实 现实 现 了 一 些 已 检查 的 运行 时 错误 ， 有 助 于 捕获 前 一 节 
描述 的 那些 内 存 访 问 错 误 。 在 该 实现 中 ， 将 并 非 由 Mem alloc、 
Mem_calloc 或 Mem_resize 返 回 的 非 NULEL 指 针 ptr 传 递 给 Mem_free 是 一 
个 已 检查 的 运行 时 错误 ， 将 已 经 传递 给 Mem_free 或 Mem_resize 的 指针 
ptr 再 次 传递 给 Mem free 也 是 已 检查 的 运行 时 错误 。Mem_free 的 fle 和 
line 参 数 的 值 用 于 报告 这 些 已 检查 的 运行 时 错误 。 


但 在 “产品 实现 ”中 ， 这 些 内 存 访问 错误 是 未 检查 的 运行 时 错误 。 
下 面 的 函数 


(exported functions 


51) += 
extern void *Mem_resize(void *ptr, long nbytes, 


const char *file, int line); 


(exported macros 


51) += 
#define RESIZE(ptr, nbytes 


) ((ptr 


) = Mem_resize((ptr 


),\ 
(nbytes 


), _FILE , __LINE_)) 


将 修改 上 一 次 调用 Mem_alloc、Mem_calloc 或 Mem_resize 分 配 的 内 存 块 
的 长 度 。 类 似 Mem_free，Mem_resize 的 第 一 个 参数 也 是 一 个 指针 ， 其 
中 包含 了 将 改变 长 度 的 内 存 块 的 地 址 。Mem_resize 会 扩展 或 缩减 该 内 
存 块 ， 使 之 包含 至 少 nbytes 内 存 ， 并 适当 对 齐 ， 最 后 返回 一 个 指 回调 
整 大 小 后 的 内 存 块 的 指针 。Mem_resize 为 改变 块 的 长 度 可 能 会 移动 其 
位 置 ， 如 此 Mem_resize 在 逻辑 上 等 价 于 分 配 一 个 新 的 块 ， 将 ptr 指 癌 的 
一 部 分 或 全 部 数据 复制 到 新 的 内 存 块 ， 并 释放 ptr 指 向 的 内 存 块 。 如 果 
Mem_resize 无 法 分 配 新 内 存 块 ， 将 引发 Mem_Failed 异 常 ， 并 将 file 和 
line 作 为 异常 的 “坐标 ”。 安 RESIZE 将 ptr 改 为 指 回 新 的 内 存 块 ， 这 是 
Mem_resize 的 一 种 常见 用 法 。 请 注意 ，RESIZE 安 会 多 次 对 ptr 求 值 。 


如 果 nbytes 大 于 ptr 指 癌 的 内 存 块 的 长 度 ， 那 么 超出 部 分 的 字 万 十 
未 初始 化 的 。 否 则 ，ptr 开 头 的 nbytes 字 节 会 复制 到 新 的 内 存 块 。 


癌 Mem_resize 传 递 的 ptr 指 针 为 NULL ， 或 nbytes 不 是 正 值 ， 这 些 是 
已 检查 的 运行 时 钳 误 。 在 “ 移 核 实现 "中 ， 将 并 非 由 Mem_alloc、 
Mem_calloc 或 Mem_resize 返 回 的 非 NULL 指 针 Ptr 传 递 给 Mem_resize 是 
一 个 已 检查 的 运行 时 错误 ， 将 已 经 传递 给 Mem_free 或 Mem_resize 的 指 


针 再 次 传递 给 Mem_resize 也 是 已 检查 的 运行 时 错误 。 在 “产品 实 
现 " 中 ， 这 些 内 存 访 问 错 误 都 是 未 检查 的 运行 时 错误 。 


Mem 接 口中 的 函数 可 以 与 标准 C 库 函数 malloc、calloc、realloc 和 
free 同 时 使 用 。 即 ， 一 个 程序 可 以 使 用 这 两 种 内 存 分 配 函 数 。“ 移 核实 
现 ” 将 内 存 访问 错误 报告 为 已 检查 的 运行 时 错误 ， 这 种 行为 仅 适 用 于 该 
实现 管理 的 内 存 。 任 何 给 定 程序 中 ， 只 能 使 用 Mem 接 口 的 一 个 实现 。 


5.2 ”产品 实现 


在 产品 实现 中 ， 这 些 例 程 将 对 标准 库 中 内 存 管理 轴 数 的 调用 封装 
到 通过 Mem 接 口 规定 的 更 安全 的 软件 包 中 。 


(mem. c 


y= 
#include <stdlib.h> 
#include <stddef.h> 
#include "assert.h" 
#include "except.h" 


#include "mem.h" 


(data 


54) 


(functions 


54) 


例如 ，Mem alloc Val FA malloc, JF Æ malloc X El] NULL 指针 时 引发 


Mem. Failed : 


(functions 


54) = 
void *Mem_alloc(long nbytes, const char *file, int line){ 


void *ptr; 


assert(nbytes > 0); 
ptr = malloc(nbytes); 
if (ptr == NULL) 


(raise 


Mem_Failed 54) 


return ptr; 


(raise 


Mem_Failed 54) = 
{ 
if (file == NULL) 
RAISE(Mem_Failed); 


else 


Except_raise(&Mem_Failed, file, line); 


54) = 


const Except_T Mem_Failed = { "Allocation Failed" }; 


WARE PRB Ah Mem_Failed i, Except_raise +} EIR EREA 
异常 时 输出 调用 者 的 “坐标 ”( 文 件 和 行 号 ， 这 些 是 在 调用 Mem_alloc 时 
传递 进来 的 ) 。 例 如 : 


Uncaught exception Allocation Failed raised @parse.c:431 


aborting... 


同样 ，Mem_calloc 将 对 calloc 的 调用 封装 了 进来 


(Functions 


54) += 
void *Mem_calloc(long count, long nbytes, 
const char *file, int line) { 


void *ptr; 


assert(count > 0); 
assert(nbytes > 0); 


ptr = calloc(count, nbytes); 


if (ptr == NULL) 


(raise 


Mem_Failed 54) 


return ptr; 


} 


在 count 或 nbytes 为 雯 时 ，calloc 的 行为 是 由 具体 实现 定义 的 。 在 这 种 情 
况 下 Mem 接 口 规定 了 函数 的 行为 ， 这 也 是 它 的 优点 之 一 ， 且 有 助 于 避 
免 bug ° 


Mem_free 只 是 调用 free: 


(Functions 


5A) += 
void Mem_free(void *ptr, const char *file, int line) { 
if (ptr) 
free(ptr); 
} 


C 语 言 标准 允许 将 NULL 指 针 传 递 给 free，Mem free 不 会 传递 NULL 指 
针 ， 因 为 free 的 比较 旧 的 实现 可 能 不 接受 NULL 指 针 。 


Mem_resize 的 规格 说 明 比 realloc 人 简单 得 多 ， 这 也 反映 在 它 的 更 简 
单 的 实现 中 : 


(Functions 


54) += 
void *Mem_resize(void *ptr, long nbytes, 


const char *file, int line) { 


assert(ptr); 

assert(nbytes > 0); 

ptr = realloc(ptr, nbytes); 
if (ptr == NULL) 


(raise 


Mem_Failed 54) 
return ptr; 


} 
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成 了 同样 的 工作 ， 但 它 在 nbytes 为 零 时 会 释放 内 存 块 ， 而 在 ptr 是 NULL 
站 针 时 会 分 配 内 存 块 。 这 些 额外 的 功能 与 修改 现存 内 存 块 的 长 度 只 
松散 的 关联， 很 容易 引入 bug e 


5.3 ”稽核 实现 


Mem 接 口 的 稽核 实现 导出 的 各 个 函数 ， 会 捕获 本 章 开 头 描 述 的 各 
种 内 存 访 问 错误 ， 并 将 其 作为 已 检查 的 运行 时 错误 报告 。 


(memchk.c 


#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "except.h" 


#include "mem.h" 
(checking types 


58) 


(checking macros 


58) 
(data 


54) 


(checking data 


56) 


(checking functions 


58) 


如 果 Mem_alloc、Mem_calloc 和 Mem_resize 从 来 不 把 同一 地 址 返回 
两 次 ， 且 能 够 记录 所 有 返回 的 地 址 以 及 哪些 地 址 指 辣 已 分 配 的 内 存 ， 
那么 Mem_free 和 Mem_resize 束 可 以 检测 内 存 访问 错误 。 抽 象 地 说 ， 这 
些 函 数 维护 了 一 个 集合 5， 其 元 素 为 对 (a, free) 或 (a, allocated ) 

其 中 a 是 某 次 分 配 返 回 的 内 存 地 址 。 值 free 表示 地 址 a 不 指 癌 已 分 配 的 


内 存 ， 即 ， 该 内 存 已 经 显 式 释放 ， 值 allocated 表示 a 指 回 已 分 配 的 内 


Mem_alloc 和 Mem_calloc 会 添加 对 (ptr, allocated) 到 集合 S， 其 
中 ptr 是 这 两 个 函数 的 返回 值 ， 在 添加 之 前 ， 二 者 保证 (ptr allocated 
) 和 (ptr, free) 都 不 在 $ 中 。 当 ptr 为 NULL 指 针 或 (ptr, allocated) 在 
S 中 ，Mem_free(ptr) 是 合法 的 。 如 果 ptr 非 空 且 (ptr, allocated) 在 5 
中 ，Mem_free 将 释放 ptr 指 向 的 内 存 块 ， 并 将 S 中 的 对 应 项 改 为 (ptr, 
free) 。 类 似 地 ， 仅 当 (ptr, allocated) 在 S 中 时 ，Mem_resize(ptr, 
nbytes, ...) 才 是 合法 的 。 倘 大 如 此 ，Mem_resize 会 调用 Mem_alloc 分 配 
一 个 新 块 ， 并 将 旧 内 存 块 的 内 容 复 制 到 新 块 ， 并 调用 Mem_free 释 放 旧 
块 ， 这 些 调用 会 对 集合 s 的 内 容 进 行 适 当 的 修改 。 


分 配 函 数 从 来 不 返回 同一 地 址 两 次 的 条 件 ， 可 以 通过 从 不 释放 任 
何 内 存 块 来 实现 。 这 种 方法 会 浪费 空间 ， 而 且 很 容易 实现 更 好 的 方 
法 : 即 从 不 释放 由 分 配 画 数 返 回 的 内 存 块 岂 。 通 过 维护 一 个 保存 这 种 
内 存 块 地 址 的 表 ， 即 可 实现 集合 S。 


这 种 方案 的 内 存 分 配 茵 ， 可 以 基于 标准 库 画 数 实现 。 该 分 配 右 维 
护 了 块 描述 符 的 一 个 哈 希 表 : 


(checking data 


56) = 
static struct descriptor { 
struct descriptor *free; 
struct descriptor *link; 


const void *ptr; 


long size; 
const char *file; 
int line; 


} *htab[ 2048]; 


ptr 是 块 的 地 址 ， 在 代码 中 其 他 地 方 分 配 (在 下 文 讲述 ) ，size 是 块 的 
长 度 。file 和 line 是 该 块 的 分 配 “ 坐 标 ?， 即 客户 程序 中 调用 相关 分 配 函 
数 的 源 代码 所 处 的 位 置 (也 会 作为 参数 传递 给 分 配 函 数 ) 。 这 些 值 并 
不 使 用 ， 但 会 保存 在 描述 符 中 ， 以 便 调 试问 在 调试 会 话 期 间 输出 相关 


maw 
信息 。 


link 字 段 构建 了 一 个 块 描述 符 的 链表 ， 这 些 块 散 列 到 htab 中 的 同一 
索引 ，htab 本 号 是 一 个 措 述 符 指针 的 数组 。 这 些 描述 符 还 形成 了 一 个 
空 采 块 链表 ， 该 链表 的 头 是 空 措 述 符 


(checking data 


56) += 


static struct descriptor freelist = { &freelist }; 


该 链表 通过 描述 符 的 free 字 段 建 立 。 该 链表 是 环形 的 : freelist 是 链表 中 
最 后 一 个 描述 人 特 ， 其 free 字 上 段 指 向 链表 中 第 一 个 摘 述 符 。 在 任 一 给 定 
时 刻 ，htab 包 含 了 所 有 块 的 描述 符 ， 包 括 空 用 块 和 已 分 配 块 ， 同 时 空 
内 块 还 出 现在 freelist 链 表 上 。 如 采 描 述 符 的 free 字 段 为 NULL， 则 该 块 
已 经 分 配 ， 如 果 free 字 段 不 是 NULL ， 则 该 块 是 空闲 的 ， 因 而 htab 就 实 
现 了 集合 S。 图 5-1 给 出 了 这 些 数据 结构 在 某 个 时 间 点 上 的 快照 。 与 每 
个 摘 述 符 结 构 关 联 的 内 存 块 ， 在 图 中 表示 摘 述 符 之 后 的 方 框 。 阴 影 


框 表示 已 分 配 的 空间 ， 空 白 的 方 框 表 示 空 闲 空间 ， 实 线 表示 link 字 自 
建立 的 链表 ， 而 虚线 表示 空闲 链表 。 


Pee eee eee eee ee ee eee eee ee eee eee ee ee 


freelist 


图 5-1 ”htab 和 freelist 结 构 


给 出 一 个 地 址 ，find 将 搜索 其 描述 符 。 该 男 数 返回 指 癌 描 述 符 的 
指针 或 者 NULL 指 针 : 


(checking functions 
58) = 
static struct descriptor *find(const void *ptr) { 


struct descriptor *bp = htab[hash(ptr, htab)]; 


while (bp && bp->ptr != ptr) 


bp = bp->link; 


return bp; 


(checking macros 


58) = 
#define hash(p, t) (((unsigned long)(p)>>3) & \ 
(sizeof (t)/sizeof ((t)[0])-1)) 


hash 宏 将 地 址 作为 一 个 位 模式 处 理 ， 右 移 三 位 ， 并 将 其 对 htab 的 大 小 
取 模 ， 以 减 小 其 值 。 给 出 find 之 后 ， 就 完全 可 以 写 出 一 个 Mem free 版 
本 ， 将 内 存 访 问 错误 实现 为 已 检查 的 运行 时 错误 : 


(checking functions 


58) += 
void Mem_free(void *ptr, const char *file, int line) { 
if (ptr) { 
struct descriptor *bp; 


(set 


bp if 


ptr is valid 


58) 


bp->free = freelist.free; 


freelist.free = bp; 


j 


如 果 ptr 不 是 NULL， 而 且 是 一 个 有 效 地 址 ， 会 将 对 应 的 内 存 块 添加 到 
空 内 链表 而 释放 该 块 ， 这 样 的 空 几 块 可 能 由 后 续 的 Mem_alloc 调 用 来 
重用 。 如 采 指 针 指 向 已 分 配 内 存 块 ， 那 么 整 是 有 效 的 : 


(set 
bp if 
ptr is valid 


58) = 
if (((unsigned long)ptr)%(sizeof (union align)) != 0 
|| (bp = find(ptr)) == NULL || bp->free) 


Except_raise(&Assert_Failed, file, line); 


这 语句 中 对 ((unsigned long)ptr) % (sizeof(union align)) != 0 的 检查 过 滤 掉 
了 那些 不 是 严格 对 齐 值 倍数 的 地 址 ， 这 样 的 地 址 不 可 能 是 有 效 的 块 指 
tH? 


如 下 所 示 ，Mem_alloc 返 回 的 指针 ， 地 址 值 总 是 对 齐 到 下 列 联 合 
的 大 小 倍数 。 


(checking types 


58) = 
union align { 
int 1; 
long 1; 
long *1p; 
void *p; 
void (*fp)(void); 
float f; 
double d; 
long double 1d; 
}; 


这 种 对 齐 确保 了 任何 类 型 的 数据 都 可 以 保存 在 Mem_alloc 返 回 的 块 
中 。 如 果 传 递 给 Mem_free 的 ptr 不 符合 这 种 对 齐 ， 它 不 可 能 在 htab 中 ， 
因而 是 无 效 的 。 


Mem_resize 通 过 同样 的 检查 来 捕获 内 存 访 问 错 误 ， 然 后 调用 
Mem_free、Mem_alloc 和 库 函 数 memcpy: 


(checking functions 


58) += 

void *Mem_resize(void *ptr, long nbytes, 
const char *file, int line) { 
struct descriptor *bp; 


void *newptr; 


assert(ptr); 
assert(nbytes > 0); 
(set 


bp if 


ptr is valid 


58) 
newptr = Mem_alloc(nbytes, file, line); 
memcpy(newptr, ptr, 
nbytes < bp->size ? nbytes : bp->size); 
Mem_free(ptr, file, line); 
return newptr; 
} 


类 似 地 ，Mem_calloc 可 以 通过 调用 Mem_alloc 和 库 函 数 memset 来 
SET 


(checking functions 


58) += 
void *Mem_calloc(long count, long nbytes, 
const char *file, int line) { 


void *ptr; 


assert(count > 0); 

assert(nbytes > 0); 

ptr = Mem_alloc(count*nbytes, file, line); 
memset(ptr, '\O', count*nbytes); 


return ptr; 


剩 下 的 工作 只 是 对 描述 符 以 及 Mem_alloc 的 代码 的 分 配 。 同 时 完 
成 这 两 个 任务 的 一 种 方法 是 ， 分 配 一 个 足够 大 的 块 ， 可 以 容纳 一 个 摘 
述 符 以 及 调用 Mem_alloc 所 请 求 的 内 存 空 间 。 这 种 方法 有 两 个 缺点 。 
第 一 ， 它 使 划分 一 块 空 用 内 存 以 满足 儿 个 较 小 请 求 的 工作 复杂 化 ， 因 
为 每 个 请 求 都 需要 自身 的 描述 符 。 第 二 ， 它 使 描述 得 易 受 破坏 ， 当 通 
过 指针 或 索引 写 内 存 越界 时 ， 束 会 发 生 这 种 情况 。 


独立 分 配 描 述 符 ， 解 除了 描述 符 分 配 与 Mem_alloc 进 行 的 内 存 分 
配 之 间 的 耦合 ， 并 减少 了 (但 不 会 消除 ) 描述 符 被 破坏 的 可 能 性 。 
dalloc 会 分 配 、 初 始 化 并 返回 一 个 描述 符 ， 这 来 自由 malloc 分 配 的 包含 
512 个 描述 符 的 内 存 块 : 


(checking functions 


58) += 
static struct descriptor *dalloc(void *ptr, long size, 
const char *file, int line) { 
static struct descriptor *avail; 


static int nleft; 


if (nleft <= 0) { 


(allocate descriptors 


60) 
nleft = NDESCRIPTORS; 

} 
avail->ptr = ptr; 
avail->size = size; 
avail->file = file; 
avail->line = line; 
avail->free = avail->link = NULL; 
nleft--; 
return avail+t+; 

} 


(checking macros 


58) += 
#define NDESCRIPTORS 512 


对 malloc 的 调用 可 能 返回 NULL 指 针 ， 这 种 情况 下 ，dalloc 将 NULL 返 回 
给 调用 者 。 


(allocate descriptors 


60) = 


avail = malloc(NDESCRIPTORS*sizeof (*avail)); 


if (avail == NULL) 


return NULL; 


QR Pas, Mem_alloc Æ dalloci& EI NULL 指针 时 引发 Mem_ Failed = 


Eo 

Mem_alloc 使 用 最 先 适 配 算法 分 配 内 存 ， 这 是 诸多 内 存 分 配 算法 
之 一 。 它 会 搜索 freelist 玉 查找 第 一 个 能 够 满足 请 求 的 足够 大 的 空 用 
块 ， 并 划分 该 块 来 满足 请 求 。 如 果 freelist 不 包含 适当 的 块 ，Mem alloc 
调用 malloc 分 配 比 nbytes 大 的 一 个 内 存 块 ， 将 该 块 添 加 到 空闲 链表 ， 然 
后 再 次 党 试 。 因 为 新 的 内 存 块 比 nbytes 大 ， 这 一 次 将 使 用 该 块 来 满足 
请 求 。 这 里 是 代码 : 


(checking functions 
58) += 
void *Mem_alloc(long nbytes, const char *file, int line){ 


struct descriptor *bp; 


void *ptr; 


assert(nbytes > 0); 


(round 
nbytes up to an alignment boundary 


61) 


for (bp = freelist.free; bp; bp = bp->free) 


~ 


if (bp->size > nbytes) { 


(use the end of the block at 


bp->ptr 61) 
} 
if (bp == &freelist) { 
struct descriptor *newptr; 


(newptr ~ a block of size 


NALLOC + nbytes 62) 


newptr->free = freelist.free; 


freelist.free = newptr; 


} 
assert(0); 


return NULL; 


Mem_alloc 首 先 将 nbytes 回 上 舍 入 ， 使 得 其 返回 的 每 个 指针 都 对 齐 到 联 
合 align 大 小 的 倍数 : 


(round 


nbytes up to an alignment boundary 


61) = 


nbytes = ((nbytes + sizeof (union align) - 1)/ 


(sizeof (union align)))*(sizeof (union align)); 


freelist.free 指 问 空 闪 链 表 的 起 始 ，for 循 环 从 这 里 开始 。 第 一 个 大 
小 大 于 nbytes 的 空 内 块 用 来 满足 该 请 求 。 该 空间 块 末 端 nbytes 长 的 空间 
被 切 分 为 一 个 新 块 ， 在 创建 其 描述 符 、 初 始 化 并 添加 到 htab 后 ， 返 回 
该 内 存 块 地 址 : 


(use the end of the block at 


bp->ptr 61) = 
bp->size -= nbytes; 
ptr = (char *)bp->ptr + bp->size; 
if ((bp = dalloc(ptr, nbytes, file, line)) != NULL) { 
unsigned h = hash(ptr, htab); 
bp->link = htab[h]; 
htab[h] = bp; 
return ptr; 
} else 


(raise 


Mem_Failed 54) 

图 5-2 说 明了 该 代码 块 的 效果 : 左 侧 是 一 个 描述 和 件 ， 指 癌 划 分 前 的 一 些 
空 闻 空间 。 在 右 侧 ， 已 经 分 配 的 空间 用 阴影 标识 ， 有 一 个 新 的 描述 符 
指向 该 内 存 块 。 请 注意 ， 新 描述 符 的 空间 链表 链接 为 NULL I! o 


本 于 


图 5-2 “分配 空闲 块 的 尾部 


对 bp->size > nbytes 的 检查 保证 了 bp->ptr 永 远 不 会 重用 。 大 的 空闲 
块 被 划分 来 满足 较 小 的 请 求 ， 直 至 其 长 度 减 少 到 sizeof(union align) 
入， 此 后 bp->size 决 不 会 大 于 nbytes。 每 个 内 存 块 中 前 sizeof(union 
align) 字 节 决 不 会 分 配 。 


在 循环 时 ， 如 有 果 bp 到 达 freelist， 说 明 该 链表 不 包含 长 度 大 于 nbytes 
的 内 存 块 。 在 这 种 情况 下 ， 需 要 分 配 一 个 新 的 内 存 块 ， 其 长 度 为 


(checking macros 


58) += 
#define NALLOC ((4096 + sizeof (union align) - 1)/ \ 


(sizeof (union align)))*(sizeof (union align) ) 


J _Enbytes, WERE ASIN EI ZS AREA ENR Sh, TE forf FAKE 
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该 块 此 前 已 分 配 并 被 释放 一 样 : 


(newptr ~ a block of size 


NALLOC + nbytes 62) = 
if ((ptr = malloc(nbytes + NALLOC)) == NULL 
|| (newptr = dalloc(ptr, nbytes + NALLOC, 
FILE__, __LINE__)) == NULL) 


(raise 


Mem_Failed 54) 


5.4 扩展 阅读 


Mem 接 口 的 目的 之 一 是 改进 标准 C 分 配 玉 数 的 接口 。[Maguire， 
1993] 一 书 批 评 了 这 些 函 数 并 描述 了 一 个 类 似 的 重新 封装 接口 。 


在 C 程 序 中 内 存 分 配 bug 是 如 此 普遍 ， 以 至 于 有 些 公 司 专门 构建 并 
销售 有 助 于 诊断 和 修复 此 类 bug 的 工具 。 其 中 最 好 的 之 一 是 Purify 
[Hastings and Joyce，1992]， 该 工具 能 够 检测 几乎 所 有 种 类 的 内 存 访问 
错误 ， 包 括 5.3 节 摘 述 的 那些 。Purify 会 检查 每 个 load 和 store 指 令 ， 因 为 
它 是 通过 编辑 目标 码 来 完成 其 工作 的 ， 所 以 即使 当 源 代码 不 可 用 时 也 
可 以 使 用 该 工具 ， 如 私有 的 库 。 通 过 修改 源 代 码 来 捕获 内 存 访问 销 
误 ， 是 男 一 种 大 不 相同 的 实现 技术 ， 例 如 ，[Austin, Breach and Sohi, 
1994] 一 文 措 述 了 一 种 系统 ， 其 中 的 “安全 ”指针 承载 了 足够 的 信息 ， 可 
以 捕获 大 量 内 存 访 问 错误 。LCLint [Evans，1996] 有 许多 类 似 PC-Lint 之 
类 工具 的 特性 ， 可 以 在 编译 时 检测 许多 潜在 的 内 存 分 配 错误 。 


[Knuth，1973a] 一 书 综述 了 所 有 重要 的 内 存 分 配 算法 ， 并 解释 了 
最 先 适 配 通 常 优 于 其 他 方法 (例如 最 佳 适 配 ， 该 方法 寻找 长 度 最 接近 
请 求 的 空闲 块 ) 的 原因 。Mem alloc 中 使 用 的 最 先 适 配 算 法 与 
[Kernighan and Ritchie，1988] 书 中 8.7 厄 描述 的 算法 类 似 。 


对 于 大 多 数 内 存 管理 算法 来 说 ， 都 有 大 量变 体 ， 通 常用 来 针对 特 
定 应 用 或 分 配 模式 改进 性 能 。 快 速 适 配 (quick fit， 参 见 [Weinstock 
and Wulf，1988]) 是 使 用 最 广泛 的 变 体 之 一 。 许 多 应 用 程序 分 配 的 内 
存 块 中 ， 仅 有 少量 不 同 长 度 ， 人 快速 适 配 利用 了 这 一 事实 。 人 快速 适 配 维 
护 N 个 空间 链表 ， 每 个 链表 用 于 一 种 最 常 请 求 的 块 长 。 在 分 配 其 中 某 
种 长 度 的 内 存 块 时 ， 只 需 从 对 应 的 链表 上 移 除 第 一 块 ， 而 释放 内 存 块 
上 时， 将 其 添加 到 对 应 的 链表 即 可 。 在 链表 为 空 或 请 求 的 长 度 链表 不 文 
持 时 ， 会 使 用 一 种 备用 算法 ， 如 最 先 适 配 。 


[Grunwald and Zormn，1993] 描 述 了 一 个 系统 ， 能 够 针对 某 种 特定 
应 用 的 使 用 模式 ， 生 成 调 优 过 的 malloc 和 free 实 现 。 该 系统 首先 用 能 够 
收集 统计 数据 的 malloc 和 free 版 本 来 运行 应 用 程序 ， 收 集 的 统计 数据 包 
括 块 长 、 分 配 与 释放 的 相对 频 和 党 程度 等 。 接 下 来 ， 系 统 将 收集 的 数据 
输入 到 一 个 程序 中 ， 程 序 将 生成 针对 该 应 用 程序 定制 的 malloc 和 free 版 
本 的 源 代码 。 这 种 定制 版 本 通常 使 用 快速 适 配 ， 文 持 少 量 特定 于 该 应 
用 程序 的 块 长 。 


5.5 习题 


5.1 [Maguire，1993] 提 倡 将 未 初始 化 的 内 存 初 始 化 为 某 种 独特 的 
位 模式 ， 以 帮助 诊断 访问 未 初始 化 内 存 造 成 的 bug。 一 种 好 的 位 模式 需 
要 具备 什么 样 的 特性 ? 请 提出 一 种 适当 的 位 模式 ， 并 修改 Mem_alloc 


的 稽核 实现 ， 使 之 使 用 该 位 模式 。 设 法 找到 一 种 应 用 程序 ， 使 得 这 种 
修改 能 够 捕获 到 一 个 bug 。 


5.2 ”在 代码 块 (use the end of the block at bp->ptr 61》 中 ， 当 一 个 
空 用 块 的 长 度 减 小 到 sizeof(union align) Ta, ERIC Ee OB 
求 了 ， 但 仍然 会 留 在 空闲 链表 中 。 修 改 代码 以 删除 这 种 内 存 块 。 你 能 
找到 这 样 的 应 用 程序 ， 使 得 通过 测量 能 够 检测 到 这 种 改进 对 该 程序 的 
效果 吗 ? 


5.3 ”最 先 适 配 的 大 多 数 实 现 (如 [Kernighan and Ritchie，1988] 的 
8.7 节 中 给 出 的 ) 都 会 合并 相 邻 的 空 亲 块 ， 以 形成 更 大 的 空闲 块 。 
Mem_alloc 的 稽核 实现 无 法 合并 相 邻 的 空 采 块 ， 因 为 它 不 能 将 同一 地 
址 返回 两 次 。 为 Mem_alloc 设 计 一 个 算法 ， 使 之 既 可 以 合并 相 邻 的 衬 
内 块 ， 又 无 需 返 回 同一 地 址 两 次 。 


5.4 一 些 程序 员 可 能 主张 ， 在 Mem_free 中 针对 内 存 访问 错误 引发 
Assert_Failure 异 常 属于 过 度 反 应 ， 因 为 只 要 将 错 座 的 调用 记 入 日 志 并 
忽略 ， 执 行 可 以 继续 。 请 实现 


extern void Mem_log(FILE *log); 


如 果 加 Mem_log 传 递 的 FILE 指 针 不 是 NULL， 则 可 以 通过 回 ljog 写 入 消 
息 的 方式 来 通知 内 存 访问 错误 ， 而 不 再 引发 Assert_Failure 异 常 。 这 些 
消息 可 以 记录 错误 调用 和 分 配 操作 的 “坐标 ”。 例 如 ， 如 采 在 调用 
Mem_free 时 传递 的 指针 指向 一 个 已 经 释放 的 内 存 块 ， 可 能 会 输出 下 列 
消息 : 


** freeing free memory 


Mem_free(0x6418) called from parse.c:461 


This block is 48 bytes long and was allocated from sym.c:123 


类 似 地 ， 如 果 在 调用 Mem_resize 时 传递 的 指针 无 效 ， 可 能 会 报告 : 


** resizing unallocated memory 


Mem_resize(Oxf7ffF930,640) called from types.c:1101 


Mem_log(NULL) 可 关闭 日 志 ， 恢 复 使 内 存 访问 错误 引发 断言 失败 的 行 


5.5 ”稽核 实现 拥有 报告 潜在 内 存 潍 漏 所 需 的 所 有 信息 。 如 本 草草 
目 所 述 ， 内 存 泄 漏 是 不 再 被 任何 指针 引用 的 已 分 配 内 存 块 ， 因 而 无 法 
释放 。 汇 漏 会 导 任 程 序 最 终 用 尽 内 存 。 对 只 是 短 时 间 运 行 的 程序 来 
说 ， 内 存 泄漏 不 是 问题 ， 但 对 于 需要 长 时 间 运 行 的 程序 来 说 (如 用 户 
界面 和 服务 器 ) ， 这 是 个 严重 的 问题 。 请 实现 


extern void Mem leak(apply(void *ptr, long size, 


const char *file, int line, void *cl), void *cl); 


该 函数 对 每 个 已 分 配 内 存 块 调用 apply 指 癌 的 函数 ，ptr 是 内 存 块 的 地 
址 ，size 是 块 的 分 配 长 度 ，file 和 ]line 是 其 分 配 坐标 。 客 户 程序 可 以 回 
Mem_leak 传 递 一 个 特定 于 应 用 程序 的 指针 cl， 该 指针 顺 次 传递 给 
apply， 用 作 最 后 一 个 参数 。Mem_leak 不 知道 cl 的 用 途 ， 但 apply 很 可 能 
知道 。apply 和 dl 合 称 一 个 闭 包 (closure) : 它们 规定 了 一 个 操作 和 一 
些 用 于 该 操作 的 上 下 文 相 关 数 据 。 例 如 ， 


void inuse(void *ptr, long size, 
const char *file, int line, void *cl) { 


FILE *log = cl; 


fprintf(log, "** memory in use at %p\n", ptr); 
fprintf(log, "This block is %ld bytes long " 
"and was allocated from %s:%d\n", Size, 


file, line); 


Sf HU BYR: 


** memory in use at 0x13428 


This block is 32 bytes long and was allocated from gen.c:23 


到 前 一 习题 所 述 的 日 志文 件 。 调 用 inuse 时 ， 将 其 和 日 志文 件 的 FILE 指 
针 一 同 传递 给 Mem_leak 即 可 : 


Mem_leak(inuse, log); 


[1] 这 里 实际 上 改变 的 是 部 的 类 型 ， 不 是 p 的 类 型 。 一 一 译 者 注 


[2] 这 貌似 和 前 一 种 方法 没有 本 质 的 差别 ， 因 为 一 般 来 说 前 一 种 方 


法 也 会 释放 直接 用 mallocnew 返 回 的 内 存 块 。 


[3] 即 free 字 段 。 一 -一 译 者 注 


Boe HRA eH 


malloc 和 free 的 大 多 数 实现 ， 都 会 使 用 基于 分 配对 象 大 小 的 内 存 管 
理 算 法 。 前 一 章 中 使 用 的 最 先 适 配 算 法 就 是 一 个 例子 。 在 一 些 应 用 程 
序 中 ， 内 存 释 放 操 作 古 成 组 同时 发 生 的 。 图 形 用 户 界 面 束 古 一 个 例 
子 。 用 于 滚动 条 、 按 钮 等 控件 的 内 存 空间 ， 在 一 个 窗口 创建 时 分 配 ， 
在 该 窗口 销 驱 时 释放 。 编 译 需 是 另 一 个 例 于 。 例 如 ，lcc 在 编译 一 个 函 
数 时 分 配 内 存 ， 在 完成 编译 该 函数 时 立即 释放 所 有 这 些 内 存 。 


对 于 此 类 应 用 程序 来 说 ， 基 于 对 象 生命 周期 的 内 存 管 理 算法 通常 
更 好 。 基 于 栈 的 分 配 是 此 类 分 配 算法 的 一 个 例子 ， 但 仅 当 对 象 生命 周 
期 有 肯 套 关系 时 才 适 用 ， 通 稍 情 况 下 并 非 如 此 。 


本 划 将 描述 一 种 内 存 管 理 接 口 及 其 实现 ， 接 口 的 实现 使 用 了 基于 
内 存 池 (arena) 的 算法 ， 其 分 配 的 内 存 来 自 一 个 内 存 池 ， 使 用 完毕 后 
立即 释放 整个 内 存 池 。 调 用 malloc， 则 必须 有 对 应 的 free 调 用 。 如 前 一 
章 所 述 ， 很 容易 忘记 调用 free， 或 者 ， (更 糟 的 是 ) 释放 一 个 已 经 被 
释放 的 对 象 或 不 应 该 被 释放 的 对 象 。 


利用 基于 内 存 池 的 分 配器 ， 不 必 像 malloc/free 那 样 ， 对 每 次 调用 
malloc 返 回 的 指针 调用 free， 只 需要 一 个 调用 ， 即 可 释放 上 一 次 释放 操 
作 以 来 内 存 池 中 分 配 的 所 有 内 存 。 这 使 得 分 配 和 释放 都 更 为 高 效 ， 内 
存 泄漏 也 没有 了 。 但 该 方案 最 重要 的 好 处 是 ， 它 简化 了 代码 。 所 请 的 
合用 算法 (applicative algorithm) , 一般 只 分 配 新 数据 结构 ， 而 不 修改 
现存 的 数据 结构 。 基 于 内 存 池 的 分 配 需 促 使 采用 倘 单 的 合用 算法 ， 以 


代替 那些 可 能 更 省 空间 、 但 也 更 复杂 的 算法 ， 因 为 后 者 必须 记录 何 时 
调用 free。 


基于 内 存 池 的 方案 有 两 个 缺点 : 它 可 能 使 用 更 多 的 内 存 ， 而 且 可 
能 造成 巧 挂 指针 。 如 采 一 个 对 象 通过 错误 的 内 存 池 分 配 ， 而 在 程序 用 
完 该 对 象 之 前 相应 的 内 存 池 已 经 释放 ， 程 序 将 引用 未 分 配 的 内 存 或 已 
经 被 其 他 内 存 池 《可 能 是 毫 无 关系 的 内 存 池 ) 重用 的 内 存 。 还 有 一 种 
可 能 ， 即 内 存 池 中 分 配 的 对 象 的 释放 时 间 迟 于 预期 ， 这 会 造成 内 存 港 
漏 。 但 实际 上 ， 内 存 池 的 管理 是 如 此 容易 ， 以 至 于 这 些 问 题 很 少 发 
Æ o 


61 接口 


Arena 接 口 规定 了 两 个 异常 ， 以 及 管理 内 存 池 并 从 内 存 池 中 分 配 内 
存 的 函数 : 


(arena.h 


= 
#ifndef ARENA_INCLUDED 
#define ARENA_INCLUDED 


#include "except.h" 


#define T Arena_T 


typedef struct T *T; 


extern const Except_T Arena_NewFailed; 


extern const Except_T Arena_Failed; 
(exported functions 
66) 


#undef T 


#endif 
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(exported functions 


66) = 
extern T Arena_new (void); 


extern void Arena_dispose(T *ap); 


Arena_new 创 建 一 个 新 的 内 存 池 并 返回 指 癌 新 建 内 存 池 的 一 个 不 透明 
指针 。 该 指针 将 传递 给 其 他 需要 指定 内 存 池 参数 的 函数 。 如 采 
Arena_ new 无 法 分 配 内 存 池 ， 将 引发 Arena NewFailed 异常 。 
Arena_dispose 释 放 与 *ap 内 存 池 关联 的 内 存 ， 释 放 内 存 池 本 号 ， 并 将 
*ap 清 零 。 传 递 给 Arena_dispose 的 ap 或 *ap 为 NULL 指 针 ， 是 一 个 已 检查 
的 运行 时 错误 。 


内 存 分 配 函 数 是 Arena_alloc 和 Arena_calloc， 它 们 比较 类 似 于 Mem 
接口 中 名 称 相似 的 函数 ， 只 是 从 内 存 池 分 配 内 存 而 已 。 


(exported functions 


66) += 

extern void *Arena_alloc (T arena, long nbytes, 
const char *file, int line); 

extern void *Arena_calloc(T arena, long count, 
long nbytes, const char *file, int line); 


extern void Arena_free (T arena); 


Arena_alloc 在 内 存 江 中 分 配 一 个 至 少 nbytes 长 的 内 存 块 ， 并 返回 指 问 第 
一 个 字 厄 的 指针 。 该 内 存 块 对 齐 到 地 址 边界 ， 能 够 适合 于 具有 最 严格 
对 齐 要 求 的 数据 。 该 块 的 内 容 是 未 初始 化 的 。Arena_calloc 在 内 存 池 中 
分 配 一 个 足够 大 的 内 存 块 ， 可 以 容纳 count 个 元 素 的 数组 ， 每 个 数组 元 
素 的 大 小 为 nbytes 字 和 ， 并 返回 指向 第 一 个 字 节 的 指针 。 该 内 存 块 的 
对 齐 与 Arena_alloc 类 似 ， 其 内 容 初始 化 为 0。count 或 nbytes 不 是 正 数 ， 
是 已 检查 的 运行 时 错误 。 


Arena_alloc 和 Arena_calloc 的 最 后 二 个 参数 是 函数 被 调用 处 的 文件 
名 和 行 号 。 如 果 Arena_alloc 或 Arena_calloc 无 法 分 配 所 要 的 内 存 ， 则 引 
发 Arena_Failed 异 常 ， 并 将 fle 和 line 参 数 传递 给 Except_raise， 这 样 ， 抛 
出 的 异常 束 给 出 了 调用 相应 函数 的 位 置 。 如 果 file 是 NULL 指 针 ， 这 两 
个 函数 将 提供 其 实现 内 部 引发 Arena_Failed 的 源 代码 的 位 置 。 


Arena_free 释 放 内 存 池 中 所 有 的 内 存 ， 相 当 于 释放 内 存 池 中 目 创建 
或 上 一 次 调用 Arena_free 以 来 已 分 配 的 所 有 内 存 块 。 


回 该 接口 中 任何 例 程 传递 的 T 值 为 NULL ， 都 是 已 检查 的 运行 时 错 
误 。 该 接口 中 的 例 程 可 以 与 Mem 接 口中 的 例 程 和 其 他 基于 malloc 和 free 


的 分 配 右 协同 使 用 。 


6.2 ”实现 


(arena.c 


Y= 
#include 
#include 
#include 
#include 


#include 


<stdlib.h> 
<string.h> 
"assert.h" 
"except.h" 


"arena.h" 


#define T Arena_T 


const Except_T Arena_NewFailed 
{ "Arena Creation Failed" }; 


const Except_T Arena_Failed 


了 


{ "Arena Allocation Failed" }; 


(macros 


71) 


(types 


67) 


(data 


70) 


(functions 


68) 
一 个 内 存 池 描述 了 一 大 块 内 存 : 


(types 


67) = 

struct T { 
T prev; 
char *avail; 
char *limit; 


}; 


prev 字 段 指 向 大 内 存 块 的 起 始 ， 此 处 保存 了 一 个 Arena_T 结 构 实 例 (A 
体 在 下 文 讲述 ) ，limit 字 段 指向 大 内 存 块 的 结束 处 丰 。avail 字 段 指 向 
大 内 存 块 中 第 一 个 空闲 位 置 ， 从 avail 开 始 、 在 limit 之 前 的 空间 可 用 于 
分 配 。 


为 分 配 N 字 节 的 内 存 空 间 ， 在 N 不 大 于 limit-avail 时 ， 将 avail 加 N， 
返回 avail 的 原 值 即 可 。 如 果 N 大 于 limit-avail， 则 和 需要 调用 malloc 分 配 
一 个 新 的 大 内 存 块 ，*arena 的 当前 值 被 “下 推 ”( 存 储 到 新 的 大 内 存 块 
的 起 始 处 ) ， 并 初始 化 arena 的 各 个 字段 使 之 描述 新 的 大 内 存 块 ， 然 后 
分 配 操作 继续 进行 。 


因而 ， 位 于 各 个 大 内 存 块头 部 的 Arena_T 结 构 实 例 形 成 了 一 个 链 
表 ， 链 表 指 针 是 其 中 的 prev 字 段 。 图 6-1 展 示 了 分 配 三 个 大 内 存 块 之 后 
内 存 池 的 状态 。 阴 影 部 分 表示 已 经 分 配 的 空间 ， 各 个 大 内 存 块 可 能 
小 不 同 ， 而 且 其 结束 处 可 能 是 未 分 配 的 空间 (如 果 分 配 操 作 未 能 刚好 
用 尽 该 块 ) 。 


prev 
avail 


limit 


图 6-1 包含 三 个 大 内 存 块 的 内 存 池 


Arena_new 分 配 并 返回 一 个 Arena_T 结 构 实 例 ， 其 各 个 字段 均 设置 
为 NULL 指 针 ， 这 表示 一 个 空 的 内 存 池 : 


(functions 


68) = 
T Arena_new(void) { 
T arena = malloc(sizeof (*arena) ); 


if (arena == NULL) 


RAISE(Arena_NewFailed); 
arena->prev = NULL; 
arena->limit = arena->avail = NULL; 
return arena; 


} 


Arena_dispose 调 用 Arena_free 释 放 内 存 池 中 的 各 个 大 内 存 块 ， 接 下 来 它 
释放 Arena_T 结 构 本 身 并 将 指 癌 内 存 池 的 指针 清 零 : 


(functions 


68) += 

void Arena_dispose(T *ap) { 
assert(ap && *ap); 
Arena_free(*ap); 
free(*ap); 
*ap = NULL; 

} 


内 存 池 使 用 malloc 和 free 而 不 是 其 他 分 配器 (例如 Mem_alloc 和 
Mem free) ， 这 使 得 它 独立 于 其 他 分 配器 。 


大 多 数 分 配 都 是 平 几 的 :将 请 求 分 配 的 内 存 长 度 同 上 舍 入 到 适当 
的 对 齐 边界 ， 将 avail 指 针 加 上 舍 入 后 的 长 度 ， 并 返回 avail 的 原 值 。 


(functions 


68) += 


void *Arena_alloc(T arena, long nbytes, 
const char *file, int line) { 
assert(arena); 
assert(nbytes > 0); 


(round 


nbytes up to an alignment boundary 


69) 
while (nbytes > arena->limit - arena->avail) { 
(get a new chunk 
69) 
} 
arena->avail += nbytes; 
return arena->avail - nbytes; 
} 


像 Mem 接 口 的 稽核 实现 那样 ， 下 述 联合 的 大 小 


(types 


67) += 

union align { 
int 1; 
long 1; 
long *1p; 


void *p; 

void (*fp)(void); 

float f; 

double d; 

long double 1d; 
}; 


给 出 了 和 宿主 机 上 最 低 的 对 齐 要 求 。 其 字段 是 那些 最 可 能 具有 最 严格 对 
齐 要 求 的 类 型 ， 该 联合 用 于 对 nbytes| 可 上 舍 入 : 


(round 
nbytes Up to an alignment boundary 


69) = 
nbytes = ((nbytes + sizeof (union align) - 1)/ 


(sizeof (union align)))*(sizeof (union align)); 


对 大 多 数 调 用 来 说 ，nbytes 小 于 arena->limit-arena->avail， 即 ， 内 
存 池 中 的 大 内 存 块 至 少 有 nbytes 长 的 空间 空间 ， 如 此 上 壕 Arena_alloc 中 
的 while 循 环 体 不 会 执行 。 如 果 当 前 的 大 内 存 块 无 法 满足 分 配 请 求 ， 则 
必须 分 配 一 个 新 的 大 内 存 块 。 这 会 浪费 当前 大 内 存 块 末端 的 空闲 衬 
间 ， 图 6-1 链 表 中 的 第 二 个 大 内 存 块 就 说 明了 这 一 点 。 


在 分 配 一 个 新 的 天 内 存 块 之 后 ，*arena 的 当前 值 傈 存 到 该 块 的 起 
处， 并 初始 化 arena 的 各 个 字段 使 之 指 同 新 块 ， 分 配 操 作 将 继续 进 
全 


(get a new chunk 


69) = 
T ptr; 
char *limit; 


(ptr ~ a new chunk 


70) 

*ptr = *arena; 

arena->avail = (char *)((union header *)ptr + 1); 
arena->limit = limit; 


arena->prev = ptr; 


(types 


67) += 

union header { 
struct T b; 
union align a; 


}; 


代码 中 的 结构 赋值 操作 *ptr=*arena， 将 *arena“ 下 推 >， 保 存在 新 的 大 内 
存 块 的 起 始 处 。header 联 合 确 保 了 arena->avail 指 问 一 个 适当 对 齐 的 地 
址 ， 这 使 得 在 狐 的 大 内 存 块 中 的 第 一 次 分 配 不 会 出 错 。 


如 下 所 示 ，Arena free 将 释放 的 大 内 存 块 维护 在 一 个 发 源 于 
freechunks 的 空 闪 链表 上 ， 以 减少 调用 malloc 的 次 数 。 该 链表 将 大 内 存 


块头 部 的 Arena_T 结 构 实例 的 prev 字 段 用 作 链 表 指 针 ， 这 些 结 构 实 例 的 
limit 字 段 只 是 指 问 其 所 处 大 内 存 块 的 结束 处 。nfree 是 链表 中 大 内 存 块 
的 数目 。Arena_alloc 会 从 该 链表 获取 空间 的 大 内 存 块 或 调用 malloc 来 
分 配 ， 而 且 在 上 述 的 <get a new chunk 69> 代 码 块 中 设置 了 Arena_alloc 
的 局 部 变量 limit， 供 后 续 使 用 : 


(data 


70) += 
static T freechunks; 


static int nfree; 


(ptr ~ a new chunk 


70) = 
if ((ptr = freechunks) != NULL) { 
freechunks = freechunks->prev; 
nfree--; 
limit = ptr->limit; 
} else { 
long m = sizeof (union header) + nbytes + 10*1024; 
ptr = malloc(m); 
if (ptr == NULL) 


(raise 


Arena_Failed 70) 


limit = (char *)ptr + m; 


J 


如 果 必 须 分 配 一 个 新 的 大 内 存 块 ， 则 会 分 配 一 个 足够 大 的 内 存 块 ， 以 
容纳 Arena_T 结 构 实 例 、nbytes 字 下 要 分 配 的 空间 以 及 10KB 剩 余 的 可 
用 空间 。 如 果 malloc 返 回 NULL ， 分 配 操作 失败 ，Arena_alloc 将 引发 


Arena Failed 寞 第 : 


(raise 


Arena_Failed 70) = 


{ 
if (file == NULL) 
RAISE(Arena_Failed); 
else 
Except_raise(&Arena_Failed, file, line); 
} 


在 内 存 池 的 各 个 字段 指 同 新 的 大 内 存 块 后 ，Arena_alloc 中 的 while 
循环 将 再 次 笑 试 进行 分 配 。 这 一 次 仍然 可 能 失败 : 如果 新 的 大 内 存 块 
来 目 freechunks， 可 能 也 会 比较 小 以 至 于 无 法 满足 请 求 ， 这 就 是 需要 用 
while 循 环 而 不 是 让 语句 的 原因 。 


Arena_calloc 只 是 调用 Arena_alloc: 


(Functions 


68) += 


void *Arena_calloc(T arena, long count, long nbytes, 
const char *file, int line) { 


void *ptr; 


assert(count > 0); 
ptr = Arena_alloc(arena, count*nbytes, file, line); 
memset(ptr, '\O', count*nbytes); 


return ptr; 


释放 内 存 池 时 ， 需 要 将 其 中 的 大 内 存 块 添加 到 空 几 大 内 存 块 的 链 
表 ， 因 为 此 操作 会 轴 历 内 存 池 中 的 大 内 存 块 链表 ， 因 而 *arena 会 恢复 
到 初始 状态 。 


(functions 


68) += 
void Arena_free(T arena) { 
assert(arena); 
while (arena->prev) { 
struct T tmp = *arena->prev; 


(free the chunk described by 


arena 71) 
*arena = tmp; 
} 


assert(arena->limit == NULL); 


assert(arena->avail == NULL); 


} 


到 tmp 的 结构 赋值 将 arena->prev 指 问 的 Arena_T 实 例 的 所 有 字段 值 复制 
到 tmp。 因 而 ， 这 个 赋值 操作 以 及 赋值 *arena=tmp， 在 由 大 内 存 块 链 表 
形成 的 Arena_T 结 构 的 栈 中 ， 弹 出 了 栈 顶 的 Arena_T 结 构 。 在 明 历 整个 
链表 后 ，arena 的 所 有 字段 值 都 应 该 是 NULL 。 


freechunks 会 容积 来 自 所 有 内 存 池 的 空间 大 内 存 块 ， 该 链表 可 能 变 
得 很 大 。 链 表 的 长 度 变 大 不 是 问题 ， 但 其 中 包含 的 空 用 内 存 太 多 就 可 
能 引起 问题 。 例 如 对 于 其 他 分 配 顺 来 说 ，freechunks 链 表 上 的 大 内 存 块 
瓯 像 是 已 经 分 配 的 内 存 ， 因 而 可 能 造成 对 malloc 的 调用 失败 。 为 避免 
占用 太 多 内 存 ，Arena_free 在 freechunks 链 表 上 仅仅 保留 


(macros 


71) = 


#define THRESHOLD 10 


THRESHOLD 个 空闲 大 内 存 块 。 在 nfree 值 到 达 THRESHOLD 后 ， 后 续 
到 达 的 大 内 存 块 将 通过 调用 free 释 放 : 


(free the chunk described by 


arena 71) = 
if (nfree < THRESHOLD) { 
arena->prev->prev = freechunks; 


freechunks = arena->prev; 


nfree++; 
freechunks->limit = arena->limit; 
} else 


free(arena->prev); 


在 图 6-2 中 ，Arena free 即 将 释放 左 侧 的 大 内 存 块 。 在 nfree 小 于 
THRESHOLD 时 ， 该 块 将 添加 到 freechunks 链 表 。 释 放 后 的 大 内 存 块 显 
示 在 右 侧 ， 虚 线 描 绘 了 上 述 代 码 中 的 三 个 赋值 操作 对 相关 指针 的 影 
[jn] © 


arena 


prev 
avail 


limit 


freechunks / 


图 6-2” 当 nfree 小 于 THRESHOLD 时 ， 释 放 内 存 块 


63 扩展 阅读 


基于 内 存 池 的 分 配器 (也 称 为 pool allocators) 在 历史 上 已 经 描述 
过 若干 次 。[Hanson，1990] 一 文中 的 内 存 池 分 配 颖 最初 是 为 供 lcc 
[Fraser and Hanson，1995] 使 用 而 开发 的 。lcc 的 分 配器 比 Arena 稍 微 简 
单 些 : 其 内 存 池 是 静态 分 配 的 ， 其 反 分 配器 不 会 调用 free。 在 其 最 初 
版 本 中 ， 分 配 是 通过 宏 直 接 操 作 内 存 池 结 构 完 成 的 ， 只 在 需要 新 的 大 
内 存 块 时 才 调 用 函数 。 


[Barrett and Zorn，1993] 一 文 描述 了 如 何 上 自动 选择 适当 的 内 存 池 。 
他 们 的 实验 建议 ， 通 向 某 个 分 配 操作 位 置 的 执行 路 径 ， 很 好 地 预言 了 
在 该 位 置 分 配 的 内 存 块 的 生命 周期 。 该 信息 包括 调用 链 和 分 配 位 置 的 
地 址 ， 可 使 用 该 信息 来 从 几 种 特定 于 应 用 程序 的 内 存 池 中 选择 。 


Vmalloc [Vo ，1996] 是 一 个 更 为 通用 的 分 配 右 ， 可 用 于 实现 Mem 
和 Arena 接 口 。Vmalloc 人 允许 客户 程序 将 内 存 组 织 为 区 ， 并 提供 函数 分 
别管 理 每 个 区 中 的 内 存 。Vmalloc 库 包括 了 malloc 接 口 的 一 个 实现 ， 能 
够 像 Mem 的 移 核 实现 那样 提供 类 似 内 存 检 查 ， 这 些 检 查 可 以 通过 设置 
环境 变量 来 控制 。 


基于 内 存 池 的 分 配 将 许多 显 式 释放 操作 合并 为 一 个 。 垃 圾 收集 紫 
(garbage collector) 更 进一步 : 它们 避免 了 所 有 的 显 式 释放 操作 。 在 
具备 垃圾 收集 句 的 语言 中 ， 程 序 员 几乎 可 以 忽略 内 存 分 配 ， 内 存 分 配 
bug JLF) 不 可 能 发 生 。 这 种 特性 是 如 此 之 优越 ， 以 至 于 无 论 怎么 讲 
都 不 过 分 。 


有 了 垃圾 收集 器 ， 内 存 空间 将 根据 需要 自动 地 回收 (通常 是 在 内 
存 分 配 请 求 无 法 满足 时 ) 。 垃 圾 收集 器 会 找到 所 有 被 程序 变量 引用 的 
内 存 块 ， 以 及 这 些 块 中 的 字段 引用 的 所 有 内 存 块 ， 以 此 类 推 。 这 些 是 
可 访问 的 内 存 块 ， 其 他 的 内 存 块 是 不 可 访问 的 ， 因 而 可 以 重用 。 有 大 


量 关于 垃圾 收集 的 文献 : [Appel，1991] 是 一 份 简 要 的 综述 ， 其 中 强调 
了 最 新 的 算法 ， 而 [Knuth，1973a] 和 [Cohen， 1981] 则 更 深入 地 涵盖 了 
较 旧 的 算法 。 


为 找到 可 访问 的 内 存 块 ， 大 多 数 垃圾 收集 怖 都 必须 知道 哪些 变量 
指向 内 存 块 ， 内 存 块 中 的 哪些 字段 指 癌 其 他 内 存 块 。 垃 圾 收集 辟 通 常 
用 于 具有 足够 的 编译 时 或 运行 时 数据 提供 相关 必要 信息 的 语言 。 例 子 
包括 LISP、Icon ` SmallTalk ` ML F} Modula-3 ° {R SF TU DL TRU ER a 

(conservative collector, Ji[Boehm and Weiser, 1988]) 可 以 用 于 那些 
不 能 提供 足够 类 型 信息 的 语言 ， 如 C 和 C++。 它 们 假定 ， 任 何 对 齐 正 
确 、 看 起 来 像 是 指针 的 位 模式 都 是 指针 ， 而 其 指 问 的 内 存 块 是 可 访问 
的 。 因 而 保守 式 垃 圾 收集 器 会 将 某 些 不 可 访问 的 内 存 块 标记 为 可 访问 
的 〈《 即 被 占用 ) ， 这 显然 过 高 估计 了 可 访问 内 存 块 集合 的 大 小 。 尽 管 
有 这 个 明显 的 障碍 ， 保 守 式 垃圾 收集 姻 在 有 些 程序 中 工作 得 怀 人 的 好 
[Zom, 1993] ° 


6.4 习题 


6.1 ”Arena_alloc 只 查看 arena 描 述 的 大 内 存 块 。 如 果 这 个 大 内 存 块 
中 至 朵 空间 不 足 ， 即 使 链表 中 的 其 他 大 内 存 块 有 足够 的 空间 ， 它 也 会 
分 配 一 个 新 的 大 内 存 块 。 修 改 Arena_alloc， 以 便 在 某 个 现存 的 大 内 存 
块 有 足够 空间 的 情况 下 ， 在 该 块 中 分 配 内 存 空间 ， 并 测量 修改 这 来 的 
好 处 。 能 找到 一 个 应 用 程序 ， 经 过 此 修改 后 ， 其 内 存 使 用 量 大 幅 降 低 
吗 ? 


6.2 ”在 Arena_alloc 需 要 一 个 新 的 大 内 存 块 时 ， 则 从 空 条 链表 上 取 
得 第 一 个 (如 果 有 的 话 ) 。 更 好 的 选择 是 找到 满足 该 请 求 的 最 大 的 空 


内 大 内 存 块 ， 仪 当 freechunks 链 表 不 包含 适当 的 大 内 存 块 时 才 分 配 一 个 
狐 的 大 内 存 块 。 在 这 个 方案 中 ， 通 过 跟踪 freechunks 链 表 中 最 大 的 大 内 
存 块 ， 可 以 避免 不 必要 的 抽 历 操作 。 经 过 这 项 修改 ，Arena_alloc 中 的 
while 循 环 可 以 替换 为 一 个 诗 语句 。 实 现 该 方案 并 测量 其 好 处 。 它 是 否 
使 Arena_alloc 显 车 变 慢 ? 它 对 内 存 的 使 用 是 否 更 有 效率 ? 


6.3 ”将 THRESHOLD 设 置 为 10 意 味 着 ， 空 闲 链表 不 会 包含 多 于 大 
约 100KB 内 存 ， 因 为 Arena_alloc 分 配 的 大 内 存 块 至 少 为 10KB。 设 计 一 
种 方法 ， 使 得 Arena_alloc 和 Arena_free 能 够 监控 分 配 和 释放 模式 ， 并 基 
于 模式 来 动态 地 计算 THRESHOLD。 目标 是 使 空闲 链表 尽 可 能 小 ， 并 
使 调用 malloc 的 次 数 最 少 。 


6.4 解释 Arena 接 口 不 文 持 下 列 函 数 的 原 


void *Arena_resize(void **ptr, long nbytes, 


const char *file, int line) 


该 男 数 类 似 Mem_resize， 会 将 sptr 指 癌 内 存 块 长 度 改变 为 nbytes， 并 返 
回 一 个 指针 指向 调整 大 小 后 的 内 存 块 ， 该 块 与 *ptr 指 同 的 内 存 块 位 于 
同一 内 存 池 中 (但 不 见得 位 于 同一 大 内 存 块 上 ) 。 如 何 修改 实现 才能 
RRAK? 该 琅 数 的 实现 将 支持 何 种 已 检查 的 运行 时 错误 ? 


6.5 ”在 基于 栈 的 分 配 絮 中， 分 配 操 作 会 将 新 的 内 存 空间 推 入 指定 
栈 的 栈 顶 ， 并 返回 指 癌 该 内 存 块 第 一 个 字 节 的 指针 。 标 记 一 个 栈 ， 整 
征 返 回 编码 了 栈 当前 高 度 的 一 个 值 ， 而 释放 操作 则 是 将 栈 顶 的 空间 弹 
出 ， 使 栈 回 复 到 此 前 的 高 度 。 为 栈 分 配套 设计 和 实现 一 个 接口 。 你 可 
以 提供 哪些 已 检查 的 运行 时 错 充 来 捕获 内 存 释放 方面 的 错误 ? 这 种 错 


误 的 例子 ， 如 在 一 个 比 当 前 栈 顶 高 的 位 置 上 进行 释放 ， 或 在 一 个 此 前 
已 经 释放 而 后 又 再 次 分 配 出 去 的 位 置 上 进行 释放 。 A 


6.6 ”拥有 多 个 内 存 分 配 接口 的 一 个 问题 是 ， 在 不 知道 哪个 分 配 接 
口 最 适合 于 某 个 特定 应 用 程序 时 ， 其 他 的 接口 必须 选择 茶 个 分 配 接 
口 。 设 计 并 实现 一 个 单一 的 接口 来 支持 第 5 革 和 第 6 半 的 两 种 分 配器 。 
例如 ， 该 接口 可 以 提供 一 个 类 似 Mem_alloc 的 分 配 函 数 ， 但 分 配 函 数 
在 茶 种 “分 配 环境 ”下 运作 ， 而 “分 配 环境 ?可 以 由 其 他 函数 来 更 改 。 这 
种 “环境 ”将 指定 内 存 管 理 的 细节 ， 如 使 用 何 种 分 配器 和 内 存 池 (如 果 
指定 了 基于 内 存 池 的 分 配方 案 ) 。 举 例 来 说 ， 其 他 函数 可 以 将 当前 环 
境 推 入 到 一 个 内 部 栈 上 并 建立 一 个 新 环境 ， 而 后 可 以 弹出 栈 顶 的 环 
境 ， 以 恢复 此 前 的 环境 设置 。 在 你 的 设计 中 ， 可 以 研究 这 种 及 其 他 变 
体 。 


[1] 即 最 后 一 个 字 节 之 后 的 位 置 。 一 一 译 者 注 


[2] 作者 的 描述 可 能 并 不 易 人 :实际 上 ， 基 于 栈 的 分 配 万 相当 于 在 
运行 栈 /调用 栈 中 分 配 临 时 内 存 空间 ， 有 点 接近 于 局 部 变量 ;分 配 空间 
时 ， 只 需要 将 调用 栈 的 栈 顶 下 推 即 可 ， 一 般 不 需要 释放 ， 函 数 返 回 时 
会 目 动 释放 ; 微软 的 C 库 提供 了 一 个 _alloca 函 数 ， 束 是 栈 分 配 琵 。 
一 一 译 者 注 


第 7 章 ”链表 


链表 是 零 或 多 个 指针 的 序列 。 包 含 零 个 指针 的 链表 是 空 链表 。 链 
表 中 指针 的 数目 是 其 长 度 。 几 乎 每 个 非 平凡 的 应 用 程序 都 会 以 某 种 形 
式 使 用 链表 。 在 程序 中 链表 是 如 此 普遍 ， 以 至 于 有 些 语言 将 链表 作为 
内 建 类 型 ，LISP、Scheme 和 ML 是 最 著名 的 例子 。 


链表 很 容易 实现 ， 因 此 程序 员 通 常 对 手头 的 每 个 应 用 程序 都 重新 
实现 链表 ， 另 外 ， 虽 然 大 多 数 特定 于 应 用 程序 的 链表 接口 有 很 多 相似 
性 ， 但 链表 没有 广 为 接 受 的 标准 搂 口 。 如 下 所 述 的 List 抽 象 数据 类 型 
提供 了 大 多 数 特定 于 应 用 程序 的 链表 接口 中 的 许多 功能 。 第 11 章 描述 
的 序列 ， 是 表示 链表 的 另 一 种 方法 。 


7.1 接口 


完整 的 List 接 口 如 下 : 


(list.h 
= 
#ifndef LIST INCLUDED 


#define LIST_INCLUDED 


#define T List_T 


typedef struct T *T; 


struct 


TH 


T rest; 


void *first; 


}; 


extern 
extern 
extern 
extern 
extern 
extern 
extern 
extern 


extern 


List_pop (T 


List_push (T 


H AHAAA A 


List_reverse(T 
int List_length (T 
void List_free (T 


void List_map (T 


List_append (T list, T tail); 
List_copy (T list); 
List_list (void *x, ...); 


list, void **x); 
list, void *x); 
list); 
list); 
*list); 


list, 


void apply(void **x, void *cl), void *cl); 


extern void **List_toArray(T list, void *end); 


#undef 


#endif 


T 


一 个 List_T 是 一 个 指向 某 个 struct List_T 实 例 的 指针 。 大 部 分 ADT 都 隐 
藏 其 类 型 的 表示 细节 。 链 表 展 现 了 这 些 细 市 ， 是 因为 对 于 这 种 特定 的 


ADT 来 说 ， 


隐藏 细 区 市 来 的 复杂 性 超出 了 好 处 。 


List_T 有 一 种 平 几 的 表示 ， 从 接口 可 以 看 到 ， 这 种 表示 采用 的 链 
表 元 素 是 包含 两 个 字段 的 结构 ， 我 们 很 难 想 象 到 ， 居 然 有 许多 其 他 种 


表示 能 够 在 隐藏 该 事实 的 情况 下 再 来 足够 多 的 好 处 。 章 末 的 习题 探讨 
了 其 中 一 些 方案 。 


披露 List_T 的 表示 从 几 个 方面 简化 了 接口 及 其 使 用 。 例 如 ，struct 
List_T 类 型 的 变量 可 以 静态 地 定义 并 初始 化 ， 这 对 于 在 编译 时 构建 链 
表 很 有 用 ， 且 避免 了 内 存 分 配 。 类 似 地 ， 其 他 结构 可 以 将 struct List_T 
实例 租 入 到 目 喘 之 中 。 值 为 NULL 的 List_T 是 空 和 链表 ， 这 是 一 种 很 自然 
的 表示 ， 而 且 访 问 first 和 rest 字 段 不 需要 函数 。 


该 接口 中 的 所 有 例 程 对 任何 链表 参数 都 可 以 接受 NULL 值 的 T， 并 
将 其 解释 为 空 链 表 。 


List_list 创 建 并 返回 一 个 链表 。 调 用 该 男 数 时 ， 需 要 传递 N+1 个 指 
针 作为 参数 ， 前 N 个 指针 为 非 NULL， 最 后 一 个 为 NULL 指 针 ， 该 函数 
会 创建 一 个 包含 N 个 结 点 的 链表 ， 各 个 结 点 的 first 字 段 包 含 了 N 个 非 
NULL 的 指针 ， 而 第 N 个 结 点 的 rest 字 段 为 NULL。 例如， 下 列 赋值 操作 


List_T p1, p2; 
p1 = List_list(NULL); 


p2 = List_list("Atom", "Mem", "Arena", "List", NULL); 


分 别 返 回 空 链表 和 一 个 包含 4 个 结 点 的 链表 (其 中 的 first 字 上 段 分 别 指 问 
Z 7 A "Atom" ` "Mem" ` "Arena" ` "List") 。 List list 可 能 引发 


Mem _ Failed 异常 。 


List_list 假 定 其 参数 列表 的 可 变 部 分 传递 的 指针 是 void。 男 数 的 原 
型 中 没有 提供 隐 式 转换 所 需 的 必要 信息 ， 因 而 对 于 用 作 第 二 个 及 后 续 
参数 的 指针 来 说 ， 程 序 员 必 须 对 char 和 void 以 外 的 指针 提供 显 式 转换 。 
例如 ， 为 构建 一 个 包含 四 个 子 链表 的 链表 ， 四 个 子 链表 都 只 有 一 个 链 


表 元 素 ， 分 别 包 含 了 字符 串 "Atom"、"Mem"、"Arena'、"List"， 正 确 
的 调用 如 下 : 


p = List_list(List_list("Atom", NULL), 
(void *)List_list("Mem", NULL), 
(void *)List_list("Arena", NULL), 


(void *)List_list("List", NULL), NULL); 


ARAT H AS) al PS ee — PR EIS TA TR o PP ce 
可 变 长 度 参数 列表 的 缺陷 之 一 。 


List_push(T list, Void*x) 在 链表 list 的 起 始 处 添加 一 个 包含 x 的 新 结 
点 ， 并 返回 新 的 链表 。List_push 可 能 引发 Mem_Failed 异 常 。List_push 
是 创建 狐 链 表 的 男 一 种 方法 ， 例 如 ， 


p2 = List_push(NULL, "List"); 
p2 = List_push(p2, "Arena" ) ; 
p2 = List_push(p2, "Mem"); 


p2 = List_push(p2, "Atom"); 
上 述 代 码 与 前 文中 对 p2 的 赋值 操作 ， 所 创建 的 链表 是 相同 的 。 


给 定 一 个 非 空 的 链表 ，List_pop(T list, void**x) 将 第 一 个 结 点 的 
first 字 上 段 赋值 给 *x (如 果 x 不 是 NULL 指 针 ) ， 移 除 第 一 个 结 点 并 释放 
其 内 存 ， 最 后 返回 结果 链表 。 给 定 一 个 空 和 链表 ，List_pop 只 是 返回 原 
链表 ， 并 不 修改 *x。 


List_append(T list, Ttai) 将 一 个 链表 附加 到 另 一 个 : 该 函数 将 tail 
赋值 给 list 中 最 后 一 个 结 点 的 rest 字 段 。 如 采 list 为 NULL ， 该 函数 返回 


tail。 这 样 ， 下 面 的 代码 
p2=List_append(p2, List_list("Except", NULL)); 


BCH Se FI BR "Except" AY 70 ae HE Ze PA TH Fl BH AS A 
元 素 的 链表 ， 而 后 将 p2 设 置 为 指 回 新 的 包含 5 个 元 素 的 链表 。 


List_reverse 首 先 鸳 转 其 参数 链表 中 结 点 的 顺序 ， 而 后 返回 结果 链 
表 。 例 如 ， 


p2 = List_reverse(p2); 


xk 回 的 链表 包 SF 5 个 元 素 , 依次 


是 "Except"、"List"、"Arena"、"Mem"、"Atom"。° 


到 目前 为 止 描述 的 大 部 分 例 程 都 是 破坏 性 的 (或 非 应 用 性 的 ， 
non-applicative) ， 它 们 可 能 改变 传递 进来 的 链表 ， 并 返回 结果 链表 © 
List_copy 是 一 个 应 用 性 的 (applicative) HAY: 它 复制 其 参数 链表 ， 
并 返回 副本 。 因 而 ， 在 执行 下 述 代码 之 后 


List_T p3 = List_reverse(List_copy(p2)); 


p3 链 表 包 含 "Atom"、"Mem"、"Arena"、"List"、"Except"，p2 保 持 不 
变 。List_copy 可 能 引发 Mem_Failed 异 常 。 


List_length 返 回 其 参数 链表 中 的 结 扣 数 日 。 


List_free 的 参数 为 一 个 指 癌 TI 的 指针 。 如 果 *list 不 是 NULL , 
List_free 将 释放 *list 链 表 中 的 所 有 结 点 并 将 其 设置 为 NULL 指 针 。 如 果 


*]ist 为 NULL，List_free 则 没有 效果 。 将 NULL 指 针 传 递 给 List_free 是 一 
个 已 检查 的 运行 时 错误 。 


List_map 对 list 链 表 中 的 每 个 结 点 调用 apply 指 回 的 函数 。 客 户 程序 
可 以 向 List map 传递 一 个 特定 于 应 用 程序 的 指针 cl， 该 指针 接 下 来 传递 
给 *apply， 用 作 第 二 个 参数 。 对 链表 中 的 每 个 结 点 ， 都 会 用 指 癌 结 点 
first 字 段 的 指针 和 cl 作为 参数 来 调用 *apply。 因 为 调用 *apply 时 使 用 的 
是 指 癌 first 字 段 的 指针 ， 因 此 first 字 段 可 能 会 被 apply 修 改 。apply 和 Cl 合 
称 闭 包 (closure) 或 回调 (callback) : 它们 规定 了 一 个 操作 和 一 些 
用 于 该 操作 的 上 下 文 相 关 数 据 。 例 如 ， 给 定 下 述 函 数 ; 


void mkatom(void **x, void *cl) { 
char **str = (char **)x; 


FILE *fp = cl; 


*str = Atom_string(*str); 
fprintf(fp, "%s\n", *str); 
} 


那么 调用 List_ map(p3, mkatom, stderr) 会 将 p3 链 表 中 的 字符 串 用 相等 的 
APR, HH PIA: 


Atom 
Mem 
Arena 
List 


Except 


到 标准 错误 输出 。 另 一 个 例子 是 


void applyFree(void **ptr, void *cl) { 
FREE(*ptr); 
} 


在 释放 链表 本 号 之 前 ， 可 以 用 该 函数 释放 各 个 结 点 的 first 字 段 所 指 同 
的 内 存 空 间 。 例 如 : 


List_T names; 


List_map(names, applyFree, NULL); 


List_free(&names) ; 


上 述 代码 将 释放 链表 names 中 的 数据 ， 人 然后 释放 链表 中 的 各 个 结 点 本 
身 。 如 采 apply 改 变 链表 ， 那 么 这 是 一 个 未 检查 的 运行 时 错误 。 


给 定 一 个 包含 N 个 值 的 链表 ，List_toArray(T list, void * end) 将 创建 
一 个 数组 ， 数 组 中 的 元 素 0 到 元 素 N-1 分 别 包含 了 链表 中 NN 个 结 点 的 first 
字段 值 ， 数 组 中 的 元 素 N 包 含 end 的 值 ，end 通 党 是 一 个 NULL 指 针 。 
List_ toArray 返 回 一 个 指向 数组 第 一 个 元 素 的 指针 。 例 如 ， 下 述 代码 可 
以 按 排 序 后 的 次 序 输出 p3 中 的 各 个 元 素 : 


int 1; 

char **array = (char **)List_toArray(p3, NULL); 

qsort((void **)array, List_length(p3), sizeof (*array), 
(int (*)(const void *, const void *))compare); 


for (i = 0; array[i]; i++) 


printf("%s\n", array[1i]); 


FREE(array); 


按 这 个 例子 所 上 暗示 的 ， 客 户 程序 必须 释放 List_toArray 返 回 的 数组 。 如 
有 果 链 表 为 空 ，List_toArray 返 回 一 个 单元 素数 组 。List_toArray 可 能 引发 
Mem_Failed 异 常 。compare 及 其 与 标准 库 范 数 qsort 的 协同 使 用 ， 将 在 


8.2 玫 描述 。 


7.2 ”实现 


(list.c 


Y= 
#include 
#include 
#include 
#include 


#include 


<stdarg.h> 
<stddef.h> 
"assert.h" 
"mem. h" 


"list.h" 


#define T List_T 


(functions 


79) 


List_push 是 最 简单 的 链表 函数 。 它 分 配 一 个 


点 ， 并 返回 指向 该 结 点 的 指针 : 


结 点 ， 初 始 化 该 结 


(Functions 


79) = 
T List_push(T list, void *x) { 


T p; 


NEW(p); 
p->first = x; 
p->rest = list; 


return p; 


KAER KAL ist EWEA, AA Es Zi ch BR E 
可 变 的 参数 ， 而 且 对 参数 列表 中 每 一 个 不 是 NULL 的 指针 参数 ， 都 必 
须 癌 链表 附加 一 个 新 的 结 点 。 为 此 ， 该 画 数 用 一 个 双重 指针 ， 来 指 癌 
表示 应 该 分 配 的 新 结 点 的 指针 : 


(functions 


79) += 
T List list(void *x; ...) { 
va_list ap; 


T list, *p = &list; 


va_start(ap, x); 
for ( ; x; x = va_arg(ap, void *)) { 


NEW(*p); 


(*p)->first = x; 
p = &("p)->rest; 
} 
*p = NULL; 
va_end(ap); 
return list; 


} 


p 最 初 指 癌 list， 因 此 循环 体 中 的 操作 会 把 指向 第 一 个 结 点 的 指针 赋值 
给 list。 此 后 ，p 指 癌 链 表 中 最 后 一 个 结 点 的 rest 字 段 ， 因 此 对 *p 的 赋值 
就 是 向 链表 添加 了 一 个 结 点 。 图 7-1 演 示 了 使 用 List_list 建 立 一 个 三 结 
点 的 链表 时 ， 对 p 的 初始 化 以 及 for 循 环 体 中 的 语句 的 效果 。 


图 7-1 ”使 用 List-list 建 立 一 个 三 世 点 的 链表 


每 一 次 循环 都 将 可 变 参数 列表 中 的 下 一 个 指针 参数 赋值 给 x， 当 毅 
到 第 一 个 NULL 指 针 参 数 时 退出 循环 ， 当 然 x 的 初始 值 也 可 能 是 


NULL 。 这 种 惯用 法 确保 了 List_list(NULL) 返 回 空 链 表 ， 即 NULL 指 
针 。 


List_list 对 双重 指针 ( 即 List_T*) 的 使 用 ， 在 许多 链表 处 理 算法 中 
是 很 有 代表 性 的 。 它 使 用 一 种 简明 的 机 制 处 理 了 两 种 情况 ， 癌 可 能 大 
空 的 链表 添加 初始 结 点 ， 同 非 空 的 链表 添加 内 部 结 点 。List_append 示 
范 了 对 该 惯用 法 的 另 一 种 使 用 : 


(Functions 


79) += 
T List_append(T list, T tail) { 
T *p = &list; 


while (*p) 

p = &(*p)->rest; 
*p = tail; 
return list; 


i 


List_append 用 p 来 笛 历 list，p 最 终 指向 链表 末尾 结 点 的 rest 字 段 (为 
NULL 指 针 ) ，List_append 应 该 将 ta 赋值 给 该 字段 。 如 果 list 本 身 是 
NULL 指 针 ， 循 环 结 束 时 p 指 向 list， 同 样 可 以 达到 将 tail 附 加 到 空 链 表 
的 预期 效果 。 


List_copy 是 List 接 口中 最 后 一 个 使 用 双重 指针 惯用 法 的 函数 : 


(Functions 


79) += 
T List_copy(T list) { 
T head, *p = &head; 


for ( ; list; list = list->rest) { 
NEW(*p); 
(*p)->first = list->first; 
p = &(*p)->rest; 

} 

*p = NULL; 


return head; 


双重 指针 无 法 简化 List_pop 或 List_reverse， 因 此 对 这 两 个 函数 来 
说 ， 更 显然 的 实现 方法 就 足够 了 。List_pop 删 除 一 个 非 空 链表 中 的 第 
一 个 结 点 并 返回 新 链表 ， 或 返回 空 链表 : 


(Functions 


79) += 
T List_pop(T list, void **x) { 
if (list) { 
T head = list->rest; 
if (x) 


*x = list->first; 


FREE(list); 
return head; 
} else 


return list; 


如 果 x 不 为 NULL ， 那 么 在 释放 第 一 个 结 点 之 前 ， 将 其 first 字 段 赋值 给 
*X。 请 注意 ，List_pop 在 释放 list 指 回 的 结 点 之 前 ， 必 须 保 存 list->rest 字 


JON 5 
段 。 


List_reverse 用 两 个 指针 list 和 next 来 遍历 链表 一 次 ， 并 使 用 这 两 个 
日 针 将 链表 就 地 反 转 ，head 总 是 指 同 反 转 后 链表 的 第 一 个 结 点 : 


(Functions 


79) += 
T List_reverse(T list) { 


T head = NULL, next; 


for ( ; list; list = next) { 
next = list->rest; 
list->rest = head; 
head = list; 

上 


return head; 


图 7-2 说 明了 处 理 链表 第 三 个 元 素 时 ， 刚 好 执行 完 循 环 体 中 第 一 个 语句 
(对 next 的 赋值 ) 的 情形 。 


head next 


list 


图 7-2 ”处 理 链 表 中 第 三 个 元 素 的 情形 


此 时 ，next 指 癌 list 的 后 继 结 点 ， 如 果 list 指 向 链表 中 最 后 一 个 结 
点 ， 则 next 为 NULL ， head 指 癌 当 前 的 人 逆 癌 链表 ， 该 链表 从 list 的 前 趋 
结 点 开始 ， 如 果 list 指 癌 链 表 的 第 一 个 结 点 ， 则 head 为 NULL。 人 循环 体 
中 的 第 二 和 第 三 条 语句 ， 将 list 指 同 的 结 点 推 入 到 head 链 表 的 头 部 ， 循 
环 的 递增 表达 式 list=next 将 list 推 进 到 当前 结 点 的 后 继 结 点 ， 此 时 ， 链 
表 的 情形 如 图 7-3 所 示 。 


head next 


Re Te 


图 7-3 ”将 list 推 进 到 当前 结 点 的 后 继 结 点 的 链表 


在 接 下 来 执行 循环 体 的 过 程 中 ，next 将 会 再 次 推进 


List_length 志 历 list 统 计 结 点 数目 ，List_free 遍 历 list 以 释放 每 一 个 


= 
28 


(Functions 


79) += 
int List_length(T list) { 


int n; 


for (n = 0; list; list = list->rest) 
n++: 


1 


return n; 


void List_free(T *list) { 


T next; 


assert(list); 
for ( ; *list; *list = next) { 
next = (*list)->rest; 


FREE(*list); 


List_map@ ÆR RER, (HERE PEA, ANA HKE T 
所 有 工作 。List_map 只 需 裔 历 list， 用 指向 链表 中 每 一 个 结 点 的 first 字 
段 的 指针 和 客户 程序 相关 的 指针 cl， 来 调用 闭 包 函数 即 可 : 


(Functions 


79) += 

void List_map(T list, 
void apply(void **x, void *cl), void *cl) { 
assert(apply); 
for ( ; list; list = list->rest) 


apply(&list->first, cl); 


List_toArray 分 配 一 个 N+1 个 元 素 的 数组 ， 用 以 容纳 一 个 N 元 素 链 
表 中 的 指针 ， 并 将 链表 中 的 指针 复制 到 数组 中 。 


(Functions 


79) += 
void **List_toArray(T list, void *end) { 
int i, n = List_length(list); 


void **array = ALLOC((n + 1)*sizeof (*array)); 


for (i = 0; i < n; i++) { 
array[i] = list->first; 
list = list->rest; 

} 

array[i] = end; 


return array; 


OT ABER AC TS CRA Re A IRR, (ERA 
List_toArray 总 是 返回 一 个 指向 数组 的 非 NULL 指 针 ， 因 此 客户 程序 从 


不 需要 检查 NULEL 指 针 。 


73 ”扩展 阅读 


[Knuth，1973a] 描 述 了 操作 单 链表 的 所 有 重要 算法 (如 List 接 口 提 
供 的 那些 ) ， 以 及 操作 双 链 表 的 算法 (本 书 中 由 Ring 接 口 提供 ， 在 第 


12 章 描述 ) 。 


在 表 处 理 语言 如 LISP 和 Scheme 中 ， 以 及 函数 式 语言 如 ML 
[Ullman ，1994] 中 ， 一 切 东 西 都 是 链表 。[Abelson and Sussman, 1985] 
说 明了 如 何 使 用 链表 来 解决 几乎 任何 问题 ， 而 该 书 只 是 许多 此 类 教科 
书 之 一 ， 该 书 使 用 了 Scheme ° 


74 习题 


71 设计 一 个 链表 ADT， 隐 藏 链表 的 表示 ， 且 不 使 用 NULL 指 针 
来 表示 空 链 表 。 首 先 设 计 接口 ， 然 后 完成 实现 。 一 种 方法 是 将 List_T 
作为 指向 表 头 的 不 透明 指针 ， 表 头 中 包含 一 个 指针 指向 链表 本 喘 ， 或 
两 个 指针 ， 分 别 指向 链表 的 第 一 个 和 最 后 一 个 结 点 。 表 头 还 可 以 保存 
链表 的 长 度 。 


7.2 重 写 List_list、List_append 和 List copy， 不 使 用 双重 指针 。 


7.3 ”使 用 双重 指针 重 写 List_reverse。 


7.4 List_append 在 许多 应 用 程序 中 是 最 常用 的 链表 操作 之 一 ， 它 
必须 遇 历 到 链表 的 末尾 ， 对 一 个 N 元 叉 链 表 需 要 人 花费 O(N) 时 间 。 人 循环 


链表 是 单 链表 的 另 一 种 表示 。Mem 接 口 的 稽核 实现 中 的 空间 链表 ， 就 
是 循环 链表 的 一 个 例子 。 在 循环 链表 中 ， 最 后 一 个 结 点 的 rest 字 段 指向 
第 一 个 结 点 ， 链 表 本 身 由 指向 最 后 一 个 结 点 的 指针 表示 。 因 而 ， 第 一 
个 和 最 后 一 个 结 点 都 可 以 在 常数 时 间 内 访问 ， 向 循环 链表 附加 另 一 个 
能 表 的 操作 ， 也 可 以 在 常数 时 间 内 完成 。 为 使 用 循环 链表 的 链表 ADT 
设计 一 个 接口 。 对 于 隐藏 链表 表示 和 披露 链表 表示 的 两 种 接口 ， 都 要 
进行 试验 。 


Bem K 


关联 表 (associative table) 是 一 组 键 一 值 对 的 集合 。 它 很 像 是 数 
组 ， 只 是 索引 可 以 是 任何 类 型 值 。 许 多 应 用 程序 都 使 用 表 。 例 如 ， 编 
译 句 要 维护 符号 表 ， 该 表 将 名 称 映射 到 名 称 的 属性 集合 。 一 些 窗口 系 
统 会 维护 表 ， 用 于 将 窗口 标题 映射 到 某 种 窗口 相关 的 数据 结构 。 文 档 
预 加 工 系统 使 用 表 来 表示 索引 : 人 例如， 索引 可 能 是 一 个 表 ， 键 是 单字 
符 的 字符 串 (每 个 字符 表示 索引 中 的 一 个 部 分 i ， 值 是 另 一 个 表 ， 该 
表 的 键 是 表示 索引 项 的 字符 串 ， 值 是 页 码 列表 © 


表 有 许多 用 途 ， 交 是 举例 殉 需 要 一 章 的 篇 幅 。Table 接 口 的 设计 ， 
使 得 它 可 以 满足 这 些 用 途中 的 相当 一 部 分 。 它 维护 键 一 值 对 ， 但 它 从 
不 查看 刍 本 映 ， 只 有 客户 程序 才 通 过 传递 给 Table 中 例 程 的 函数 ， 来 查 
看 键 。8.2 下 朱 述 了 Table 接 口 的 一 个 典型 的 客户 程序 ， 该 程序 输出 其 输 
入 中 单词 出 现 的 次 数 。 这 个 程序 是 wf， 它 还 使 用 了 Atom 和 Mem 接 口 。 


8.1 #0 


Table 接 口 用 一 个 不 透明 指针 类 型 来 表示 关联 表 : 


(table.h 


= 
#ifndef TABLE _INCLUDED 


#define TABLE_INCLUDED 
#define T Table_T 


typedef struct T *T; 
(exported functions 
84) 


#undef T 


#endif 


导出 的 函数 负责 分 配 和 释放 Table_ T 实 例 、 向 表 添 加 /删除 键 一 值 对 ， 
以 及 访问 表 中 的 键 一 值 对 。 向 该 接口 中 任何 函数 传递 的 Table_T 实 例 为 
NULL， 或 键 为 NULL ， 都 是 已 检查 的 运行 时 错误 。 


Table_ T 通 过 下 列 函 数 分 配 和 释放 : 


(exported functions 


84) = 

extern T Table_new (int hint, 
int cmp(const void *x, const void *y), 
unsigned hash(const void *key)); 


extern void Table free(T *table); 


Table_new 的 第 一 个 参数 hint， 用 于 估计 新 的 表 中 预期 会 容纳 的 表 项 数 
目 。 无 论 hint 值 如 何 ， 所 有 的 表 都 可 以 容纳 任意 数目 的 表 项 ， 但 准确 
的 hint 值 可 能 会 提高 性 能 。 传 递 负 的 hint 值 ， 是 一 个 已 检查 的 运行 时 镑 


误 。 范 数 cmp 和 hash 人 负责 操作 特定 于 客户 程序 的 刍 。 给 定 两 个 键 x 和 
y，cmp(Xx,y) 针 对 x 小 于 y、x 等 于 y 或 x 大 于 y 的 情形 ， 必 须 分 别 返 回 小 于 
零 、 等 于 零 或 大 于 零 的 整数 。 标 准 库 范 数 stremp 是 一 个 适合 于 字符 串 
键 的 比较 函数 。hash 必 须 针 对 key 返 回 一 个 哈 希 码 ， 如 果 cmp(xy) 返 回 
F, hash(x) Vm E F hash(y) ° FARA LA AO a hash 7 cmp Xi 


数 。 


原子 通常 用 作 键 ， 因 此 如 果 hash 是 NULL 画 数 指针 ， 那 么 假定 新 表 
中 的 键 是 原子 ，Table 的 实现 提供 了 一 个 适当 的 哈 希 函数 。 类 似 地 ， 如 
果 cmp 是 NULL 画 数 指针 ， 那 么 假定 表 的 键 为 原子 ， 如 果 x=y， 那 么 键 x 
和 y 相 等 。 


Table_new 可 能 引发 Mem_Failed 异 和 常 。 


Table_new 参 数 包 括 一 个 表 大 小 的 提示 值 、 一 个 哈 布 画 数 和 一 个 比 
较 函 数 ， 提 供 的 信息 超出 了 大 多 数 实 现 的 需要 。 例 如 ，8.3 市 中 描述 的 
哈 希 表 实 现 需 要 一 个 只 测试 相等 性 的 比较 函数 ， 而 使 用 树 的 实现 则 不 
需要 表 大 小 的 提示 信息 或 哈 布 函数 。 这 种 复杂 性 ， 是 容许 多 种 实现 的 
设计 所 必需 的 代价 ; 另外， 为 什么 设计 好 的 接口 很 困难 ， 这 种 特性 就 
是 原因 之 一 。 


Table_free 释 放 *table， 并 将 其 设置 为 NULL 指针 。 如 果 table 或 
*#table 是 NULL ， 则 是 已 检查 的 运行 时 销 误 。Table_free 并 不 释放 键 或 
值 ， 相 关内 容 可 参考 Table_map o 


AEE 


(exported functions 


84) += 

extern int Table_length(T table); 

extern void *Table_put (T table, const void *key, 
void *value); 

extern void *Table_get (T table, const void *key); 


extern void *Table_remove(T table, const void *key); 


其 功能 分 别 是 : 返回 表 中 键 的 数 日 、 添 加 一 个 新 的 键 一 值 对 或 改变 一 
个 现存 键 一 值 对 中 的 值 ， 取 得 与 某 个 键 关 联 的 值 ， 删 除 一 个 键 一 值 
对 。 


Table_length 返 回 table 中 键 一 值 对 的 数目 。 


Table_put 将 由 key 和 value 给 定 的 键 一 值 对 添加 到 table。 如 有 果 table 已 
经 包含 key 键 ， 那 么 用 value 徐 新 key 此 前 对 应 的 值 ，Table_put 将 返回 key 
此 前 对 应 的 值 。 否 则 ， 将 key 和 value 添 加 到 table 中 ，table 增 长 一 个 表 
项 ，Table_put 将 返回 NULL 指 针 。Table_put 可 能 引发 Mem_Failed 异 
Eo 

Table_get 搜 索 table 查 找 key 键 ， 如 果 找 到 则 返回 key 键 相关 联 的 
值 。 如 果 table 并 不 包含 key 键 ， 则 Table_get 返 回 NULL 指 针 。 请 注意 ， 
如 采 table 包 含 NULL 指 针 值 ， 那 么 返回 NULL 指 针 是 有 歧义 的 。 


Table_remove 将 搜索 table 查 找 key 键 ， 如 果 找 到 则 从 table 删 除 对 应 
的 键 一 值 对 ， 表 将 会 缩减 一 个 表 项 ， 并 返回 被 删除 的 值 。 如 果 table 并 
不 包含 key 键 ，Table_remove 对 table 没 有 作用 ， 将 返回 NULL 指 针 。 


PAR 


(exported functions 


84) += 

extern void Table_map (T table, 
void apply(const void *key, void **value, void *cl), 
void *cl); 


extern void **Table_toArray(T table, void *end); 


Table toArray 访 问 表 中 的 键 一 值 对 ， 并 将 其 收集 到 一 个 数组 中 。 
Table_map 以 未 指定 的 顺序 对 table 中 的 每 个 键 一 值 对 调用 apply 指 问 的 
函数 。apply 和 cl 指定 了 一 个 财 包 : 客户 程序 可 以 同 Table_map 传 递 一 个 
特定 于 应 用 程序 的 指针 cl， 在 每 次 调用 apply 时 ， 该 指针 又 被 顺 次 传递 
给 apply。 对 table 中 的 每 个 对 ， 调 用 apply 时 会 传递 其 键 、 指 回 其 值 的 指 
针 和 cl。 因 为 调用 *apply 时 使 用 的 是 指向 值 的 指针 ， 因 此 值 可 能 会 被 
apply 修 改 。Table_map 还 可 以 用 来 在 释放 表 之 前 释放 键 或 值 。 例 如 ， 
假定 键 是 原子 


static void vfree(const void *key, void **value, 
void *cl) { 
FREE(*value); 

} 


上 述 函 数 会 释放 键 一 值 对 中 的 值 ， 因 此 


Table_map(table, vfree, NULL); 


Table_free(&table) ; 


将 释放 table 中 所 有 的 值 和 table 本 吴 。 


如 果 apply 调 用 Table_put 或 Table_remove 改 变 table 的 内 容 ， 则 是 已 
检查 的 运行 时 错误 。 


给 定 一 个 包含 N 个 键 一 值 对 的 表 ，Table toArray 会 构建 一 个 有 
2N+1 个 元 素 的 数组 ， 并 返回 指向 第 一 个 元 聚 的 指针 。 在 数组 中 键 和 值 
交 蔡 出 现 ， 键 出 现在 偶数 编号 的 元 素 处 ， 对 应 的 值 出 现在 下 一 个 奇数 
编号 的 元 系 处 。 最 后 一 个 偶数 编号 的 元 素 位 于 索引 2N 处 ， 被 赋值 为 
end，end 通 常 是 NULL 指 针 。 数 组 中 键 一 值 对 的 顺序 是 未 指定 的 。8.2 
广 中 摘 述 的 程序 说 明了 Table_toArray 的 用 法 。 


Table_toArray 可 能 3 引发 Mem Failed 异常 ， 客 户 程 序 必 须 释 放 
Table_toArray 返 回 的 数组 。 


8.2 Bi: 词 频 


wf 会 列 出 一 组 文件 或 标准 输入 《如 有 果 没 有 指定 文件 ) 中 每 个 单词 
出 现 的 次 数 。 例 如 : 


% wf table.c mem.c 


table.c: 
3 apply 
7 array 


13 assert 


9 binding 
18 book 
2 break 


10 buckets 


4 y 
mem.c: 
1 allocation 


7 assert 


12 book 
1 stdlib 
9 void 


如 上 壕 输 出 所 示 ， 每 个 文件 中 的 单词 按 字母 顺序 列 出 ， 单 词 之 前 是 其 
在 该 文件 中 出 现 的 次 数 。 对 于 wf 来 说 ， 单 词 就 是 一 个 字母 后 接 零 个 或 
更 多 字母 或 下 划 线 ， 不 考虑 大 小 写 。 


更 一 般 地 说 ， 一 个 单词 由 first 集 合 中 的 一 个 字符 开始 ， 后 接 rest 集 
合 中 的 零 或 多 个 字符 。 这 种 形式 的 单词 可 以 由 getword 识 别 ， 它 是 1.1 市 
中 摘 述 的 double 中 的 getword 的 一 般 化 形式 。 它 在 本 书 中 使 用 得 很 广 
泛 ， 以 至 于 需要 打包 到 一 个 独立 的 接口 中 : 


(getword.h 


= 


#include <stdio.h> 


extern int getword(FILE *fp, char *buf, int size, 


int first(int c), int rest(int c)); 


getword 会 从 打开 的 文件 全 中 读 取 下 一 个 单词 ， 将 其 作为 0 结尾 字符 串 
存储 到 buf [0..size-1] 中 ， 并 返回 1。 当 它 到 达 文 件 末 尾 而 无 法 读 取 到 单 
词 时 ， 将 返回 0。 函 数 first 和 rest 测 试 某 个 字符 是 否 属于 first 和 rest 集 
合 。 一 个 单词 是 一 个 连续 的 字符 序列 ， 其 起 始 字符 用 first 函 数 测试 时 
会 返回 非 零 值 ， 后 接 的 字符 用 rest 测 试 时 将 返回 非 零 值 。 如 果 一 个 单词 
包含 的 字符 数 大 于 size-2， 多 出 的 字符 将 丢弃 。size 必 须 大 于 1， 印 、 
buf、first 和 rest 都 不 能 为 NULL 。 


(getword.c 


Y= 
#include <ctype.h> 
#include <string.h> 
#include <stdio.h> 
#include "assert.h" 


#include "getword.h" 


int getword(FILE *fp, char *buf, int size, 
int first(int c), int rest(int c)) { 


int i = 0, C; 


assert(fp && buf && size > 1 && first && rest); 
c = getc(fp); 
for ( ; c != EOF; c = getc(fp)) 

if (first(c)) { 


(store 


c in buf if it fits 


88) 
c = getc(fp); 
break; 
} 
for ( ; c != EOF && rest(c); c = getc(fp)) 


(store 


c in buf if it fits 


88) 
if (i < size) 
buf[i] = '\0'; 
else 
buf[size-1] = '\0'; 
if (c != EOF) 
ungetc(c, fp); 
return i > 0; 
} 
(store 


c in buf if it fits 


88) = 
{ 


if (i < size - 1) 
buf [i++] = c; 


J 


getword 的 这 个 版 本 比 double 中 的 版 本 要 复杂 一 点 ， 因 为 当 一 个 字符 属 
于 first 集 合 但 不 属于 rest 集 合 时 ， 这 个 版 本 必须 能 够 工作 。 当 first 返 回 
非 零 值 时 ， 该 字符 将 保持 在 buf 中 ， 仅 其 后 续 字 符 将 传递 给 rest 。 


wf 的 main 函 数 处 理 其 参数 ， 参 数 给 出 了 输入 文件 的 名 称 。main 打 
开 各 个 文件 ， 并 用 FILE 指 针 和 文件 名 来 调用 wf: 


(wf functions 


88) = 
int main(int argc, char *argv[]) { 


int 1; 


for (i = 1; i < argc; i++) { 

FILE *fp = fopen(argv[i], "r"); 

if (fp == NULL) { 
fprintf(stderr, "%s: can't open '%s' (%s)\n", 

argv[O], argv[i], strerror(errno)); 

return EXIT_FAILURE; 

} else { 
wf(argv[i], fp); 
fclose(fp); 


if (argc == 1) wf(NULL, stdin); 


return EXIT_SUCCESS; 


(wf includes 


88) = 
#include <stdio.h> 
#include <stdlib.h> 


#include <errno.h> 


如 果 没 有 参数 ，main 用 NULL 字 符 串 (用 作文 件 名 ) 和 表示 标准 输入 
的 FILE 指 针 来 调用 wf。NULL 字 符 串 文件 名 告知 wf 无 需 输 出 文件 名 。 


wf 使 用 表 来 存储 单词 及 其 计数 。 各 个 单词 都 转换 为 小 写 ， 再 转换 
为 原子 ， 用 作 表 的 键 。 使 用 原子 ， 使 得 wf 可 以 利用 表 提 供 的 默认 哈 希 
函数 和 比较 画 数 。 表 中 存储 的 值 是 指针 ， 但 wf 却 需要 将 一 个 整数 计数 
关联 到 各 个 键 。 因 而 它 为 计数 闫 分 配 了 内 存 空间 ， 并 将 指 网 该 空间 的 
指针 存储 在 表 中 。 


(wf functions 


88) += 

void wf(char *name, FILE *fp) { 
Table _T table = Table_new(0, NULL, NULL); 
char buf[128]; 


while (getword(fp, buf, sizeof buf, first, rest)) { 


const char *word; 
int i, *count; 
for (i = 0; buf[i] != '\O'; i++) 
buf[i] = tolower(buf[i]); 
word = Atom_string(buf); 
count = Table_get(table, word); 
if (count) 
(*count )++; 
else { 
NEW(count); 
*count = 1; 


Table_put(table, word, count); 


} 
if (name) 
printf("%s:\n", name); 


{ (print the words 


90) } 


(deallocate the entries and 


table 91) 
} 


(wf includes 


88) += 


#include <ctype.h> 
#include "atom.h" 
#include "table.h" 
#include "mem.h" 


#include "getword.h" 
(wf prototypes 


89) = 


void wf(char *, FILE *); 


countze — AJE PATT o WR Table_getk EINULL, JBA 5p% 
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示 该 单词 的 第 一 次 出 现 ， 并 将 其 添加 到 表 中 。 当 Table_get 返 回 非 
NULL 指 针 时 ， 表 达 式 (*counD++ 会 将 该 指针 指向 的 整数 加 1。 该 表达 
式 与 *count++ 有 很 大 不 同 ， 后 者 将 count 加 1， 而 不 是 将 其 指向 的 整数 
加 1 ° 


字符 是 否 是 frst 和 rest 集 合 的 成 员 ， 是 通过 同名 画 数 来 测试 的 ， 这 
些 画 数 的 实现 使 用 了 标准 头 文件 ctypeh 中 定义 的 谓词 ， 


(wf functions 
88) += 


int first(int c) { 


return isalpha(c); 


int rest(int c) { 


return isalpha(c) || c == '_'; 


(wf prototypes 


89) += 
int first(int c); 


int rest (int c); 


在 wf 读 取 了 所 有 单词 后 ， 它 必须 排序 并 和 输出 它们 。qsort 是 标准 C 
库 的 排序 函数 ， 可 以 对 数组 排序 ， 因 此 ， 如 果 告 知 qsort 数 组 中 的 键 一 
值 对 应 该 当做 单个 元 素 处 理 ， 那 么 wf 就 可 以 对 Table_toArray 返 回 的 数 
组 进行 排序 。 接 下 来 ， 程 序 损 历数 组 即 可 输出 各 个 单词 及 其 计数 : 


(print the words 


90) = 
int 1; 
void **array = Table _toArray(table, NULL); 
qsort(array, Table_length(table), 2*sizeof (*array), 
compare); 
for (i = 0; array[i]; i += 2) 
printf("%d\t%s\n", *(int *)array[it+1], 
(char *)array[i]); 


FREE(array); 


qsort 有 4 个 参数 : 数组、 元 素 的 数目 、 各 个 元 素 的 大 小 ( 字 市 数 ) 
和 比较 两 个 元 素 时 调用 的 函数 。 为 将 链 一 值 对 当做 单个 元 素 处 理 ，wf 
告知 qsort 数 组 中 有 N 个 元 素 ， 每 个 元 素 占 两 个 指针 的 空间 。 


qsort 用 指向 元 素 的 指针 作为 参数 调用 比较 函数 。 每 个 元 素 本 里 十 
两 个 指针 ， 一 个 指向 单词 ， 男 一 个 指向 计数 ， 因 此 调用 比较 函数 时 ， 
其 参数 是 两 个 指向 字符 的 双重 指针 。 例 如 ， 当 比较 mem.c 文 件 中 的 
assert 和 和 book 时， 参数 x 和 y 如 图 8-1 所 示 。 


图 8-1 ”参数 x 和 y 的 链表 
比较 函数 可 以 调用 strcmp 来 比较 单词 : 


(wf functions 


88) += 
int compare(const void *x, const void *y) { 


return strcemp(*(char **)x, *(char **)y); 


(wf includes 


88) += 


#include <string.h> 
(wf prototypes 


89) += 


int compare(const void *x, const void *y); 


main 会 对 每 个 文件 名 参数 调用 wf 函 数 ， 因 此 为 节省 空间 ，wf 应 该 
在 返回 之 前 释放 表 和 计数 器 。 对 Table_map 的 调用 释放 了 各 计数 器 ， 而 
Table_freef# iN [FEAF ° 


(deallocate the entries and 
table 91) = 
Table_map(table, vfree, NULL); 
Table_free(&table); 
(wf functions 
88) += 


void vfree(const void *key, void **count, void *cl) { 


FREE(*count); 


(wf prototypes 


89) += 


void vfree(const void *, void **, void *); 


BAR, AN ETE, AREER ° Ab, A P— Hn ge h I 
在 后 续 的 文件 中 。 


收集 wf.c 的 各 个 片段 ， 殊 形成 了 wf 程序 : 


(wf.c 


y= 


(wf includes 


88) 


(wf prototypes 


89) 


(wf functions 


88) 


8.3 ”实现 


(table.c 


#include <limits.h> 
#include <stddef.h> 
#include "mem.h" 

#include "assert.h" 


#include "table.h" 


#define T Table_T 


(types 


92) 


(static functions 


93) 


(functions 


92) 


在 可 用 于 表示 天 联 表 的 各 种 显而易见 的 数据 结构 中 ， 哈 硕 表 是 其 
中 之 一 〈 树 是 另 一 种 ， 参 见习 题 8.2) 。 因 而 每 个 Table_T 是 一 个 结构 
指针 ， 该 结构 包含 了 binding 结 构 的 一 个 哈 希 表 ， 键 一 值 对 则 包含 在 
binding 结 构 中 : 


(types 


92) = 


struct T { 


(fields 


92) 
struct binding { 
struct binding *link; 
const void *key; 
void *value; 
} **buckets; 
}; 


buckets 指 癌 一 个 数组 ， 包 含 适 当 数 目的 元 素 。cmp 和 hash 芳 数 是 关联 
到 特定 表 的 ， 因 此 它们 连同 buckets 中 元 素 的 数 日 ， 一 同 保存 在 Table_T 
结构 中 : 


(fields 


92) = 
int size; 
int (*cmp)(const void *x, const void *y); 


unsigned (*hash)(const void *key); 


Table_new 使 用 其 hint 参 数 来 选择 一 个 素数 作为 buckets 的 大 小 ， 它 还 会 
保存 传递 进来 的 cmp 和 hash 函 数 指针 〈 或 指向 静态 函数 的 指针 ， 用 于 
比较 和 散 列 原子 ) : 


(functions 


92) = 


T Table_new(int hint, 
int cmp(const void *x, const void *y), 
unsigned hash(const void *key)) { 
T table; 
int 1; 
static int primes[] = { 509, 509, 1021, 2053, 4093, 


8191, 16381, 32771, 65521, INT_MAX }; 


assert(hint >= 0); 

for (i = 1; primes[i] < hint; i++) 

table = ALLOC(sizeof (*table) + 
primes[i-1]*sizeof (table->buckets[0])); 

table->size = primes[i-1]; 

table->cmp = cmp ? cmp : cmpatom; 

table->hash = hash ? hash : hashatom; 

table->buckets = (struct binding **)(table + 1); 

for (i = 0; i < table->size; i++) 
table->buckets[i] = NULL; 

table->length = 0; 

table->timestamp = 0; 


return table; 


for 循 环 将 i 设 置 为 primes 中 大 于 等 于 hint 的 第 一 个 元 素 的 索引 值 ， 
primes[i-1] 给 出 了 buckets 中 元 素 的 数 日 。 请 注意 ， 该 循环 从 索引 1 开 
始 。Mem 接 口 的 ALLOC 安 负责 分 配 Table T 结 构 和 buckets 占用 的 至 


间 。Table 接 口 的 实现 使 用 素数 作为 其 哈 希 表 的 大 小 ， 因 为 它 无 法 控制 
键 的 哈 希 码 如 何 计算 。primes 中 的 值 是 最 接近 2? 的 素数 (n=9...16) ， 
由 此 可 以 确定 哈 希 表 在 很 大 范围 内 的 大 小 。Atom 使 用 了 稍 位 单 的 算 
法 ， 因 为 它 目 身 会 计算 哈 希 码 。 


如 果 cmp 或 hash 古 NULL 函 数 指针 ， 将 使 用 下 列 函数 


(static functions 


93) = 
static int cmpatom(const void *x, const void *y) { 


return x != y; 


static unsigned hashatom(const void *key) { 
return (unsigned long)key>>2; 


} 


代替 。 因 为 原子 x=y 即 可 推出 x 和 y 相 等 ， 所 以 cmpatom 在 x=y 时 返回 0， 
否则 返回 1。 这 个 特定 的 Table 实 现 只 需要 测试 键 是 否 相 等 ， 因 此 
cmpatom 并 不 需要 测定 x 和 y 的 相对 顺序 。 原 子 是 一 个 地 址 ， 这 个 地 址 
本 身 就 可 以 用 作 哈 希 码 ， 右 移 两 位 是 因为 可 能 每 个 原子 都 起 始 于 字 边 
界 (word boundary) ， 因 此 最 右 侧 两 位 可 能 是 0。 


buckets 中 的 每 个 元 素 都 古 一 个 链表 的 表 头 ， 该 链表 由 binding 结 构 
构成 ， 每 个 binding 结 构 都 包含 一 个 键 、 与 之 相关 联 的 值 以 及 指 疝 链表 
中 下 一 个 binding 结 构 的 指针 。 图 8-2 给 出 了 一 个 例子 。 同 一 链表 中 ， 所 
有 的 键 剖 具有 相同 的 哈 布 码 。 


图 8-2 


表 的 布 


==] 
可 


Table_get 查 找 与 键 对 应 的 值 ， 它 首先 散 列 键 得 到 其 哈 硕 码 ， 而 后 
将 哈 硕 人 码 对 buckets 中 元 素 的 数目 取 模 ， 然 后 搜索 对 应 的 链表 查找 与 key 
相同 的 键 。 它 调用 表 的 hash 和 cmp 国 数 。 


(functions 


92) += 


void *Table_get(T table, const void *key) { 


int i; 

struct binding *p; 
assert(table); 
assert(key); 


(search 


table for 


key 94) 


return p ? p->value : NULL; 


(search 
table for 


key 94) = 

i = (*table->hash) (key)%table->size; 

for (p = table->buckets[i]; p; p = p->link) 
if ((*table->cmp)(key, p->key) == 0) 


break; 


这 个 for 循 环 在 找到 键 时 结束 ， 此 时 p 指 同 我 们 天 注 的 binding 结 构 实 
例 。 和 否则 ，p 最 终 为 NULL ° 


Table_put 的 流程 很 相似 ， 它 在 表 中 碍 找 一 个 键 ， 如 果 找 到 ， 则 改 
变相 关联 的 值 。 如 果 Table_put 找 不 到 键 ， 那 么 它 会 分 配 并 初始 化 一 个 
狐 的 binding 结 构 实 例 ， 找 到 键 在 buckets 中 对 应 的 链表 ， 将 该 实例 添加 
到 链表 的 头 部 。 事 实 上 ， 可 以 将 新 的 binding 实 例 添 加 到 链表 中 任何 地 
方 ， 但 添加 到 表 头 是 最 容易 也 最 高 效 的 方案 。 


(Functions 


) += 


void *Table_put(T table, const void *key, void *value) 
int 1; 
struct binding *p; 


void *prev; 


assert(table); 
assert(key); 


(search 


table for 


key 94) 
if (p == NULL) { 
NEW(p); 
p->key = key; 
p->link = table->buckets[i]; 
table->buckets[i] = p; 
table->length++; 
prev = NULL; 
} else 
prev = p->value; 
p->value = value; 
table->timestamp++; 


return prev; 


Table_put 会 将 表 的 两 个 计数 妖 加 1: 


(fields 


92) += 
int length; 


unsigned timestamp; 


length 是 表 中 binding 实 例 的 数目 ，Table_length 函 数 即 返回 该 值 : 


(functions 


92) += 
int Table_length(T table) { 
assert(table); 


return table->length; 


Table_put 或 Table remove 每 次 修改 表 时 ， 表 的 timestamp 也 会 加 1。 
timestamp 用 来 实现 Table map 必须 强制 实施 的 一 项 已 检查 的 运行 时 错 
误 : 在 Table map 访问 表 中 各 个 binding 实 例 时 ， 表 不 能 改变 。 
Table_map 在 进入 时 保存 了 timestamp 的 值 。 在 每 次 调用 apply 之 后 ， 它 
通过 上 断言 来 检查 表 的 timestamp 是 否 仍然 等 于 该 保存 值 。 


(Functions 


92) += 
void Table_map(T table, 
void apply(const void *key, void **value, void *cl), 


void *cl) { 


int 1; 
unsigned stamp; 


struct binding *p; 


assert(table); 
assert(apply); 
stamp = table->timestamp; 
for (i = 0; i < table->size; i++) 
for (p = table->buckets[1i]; p; p = p->link) { 
apply(p->key, &p->value, cl); 


assert(table->timestamp == stamp); 


Table_remove ti, R A— ARE, (E EEH T fa binding E fi) Hy Xt EE 
指针 ， 这 样 在 找到 对 应 键 的 binding 实 例 时 ， 可 以 删除 该 binding: 


(functions 


92) += 
void *Table_remove(T table, const void *key) { 
int 1; 


struct binding **pp; 


assert(table); 
assert(key); 


table->timestamp++; 


i = (*table->hash) (key)%table->size; 
for (pp = &table->buckets[i]; *pp; pp = &(*pp)->Link) 
if ((*table->cmp)(key, (*pp)->key) == 0) { 
struct binding *p = *pp; 
void *value = p->value; 
*pp = p->link; 
FREE(p); 
table->lLength--; 
return value; 
} 
return NULL; 


上 述 for 循 环 与 《search table for key 94) 中 的 for 循 环 在 功能 上 是 等 效 
的 ， 只 是 pp 指 回 对 应 于 各 个 键 的 binding 实 例 的 指针 。pp 最 初 指 癌 table- 
>buckets[i， 而 后 过 历 整 个 链表 ， 当 检查 第 k+1 个 binding 实 例 时 ，pp 指 
癌 第 k 个 binding 实 例 的 link 字 段 ， 如 图 8-3 所 示 。 


图 8-3 ”检查 第 k+1 个 binding 实 例 的 情形 


如 果 *pp 包 含 key， 那 么 通过 将 *pp 设 置 为 (*pp)->link， 即 可 从 链表 
扬 开 该 binding 的 链接 ，p 包 含 *pp 的 值 。 如 果 Table removet al, © 


也 会 将 表 的 长 度 减 1。 


Table_toArray 类 似 于 List_toArray。 它 分 配 一 个 数组 来 容纳 各 个 键 
一 值 对 (以 及 一 个 结束 指针 ) ， 并 访问 table 中 的 各 个 binding 实 例 以 填 
充 数 组 : 


(functions 


92) += 
void **Table_toArray(T table, void *end) { 
int i, j = 0; 
void **array; 
struct binding *p; 
assert(table); 
array = ALLOC((2*table->length + 1)*sizeof (*array)); 
for (i = 0; i < table->size; i++) 
for (p = table->buckets[i]; p; p = p->link) { 
array[j++] = (void *)p->key; 
array[j++] = p->value; 
} 
array[j] = end; 


return array; 


p->key 必 须 从 const void* 转 换 为 void* ， 因 为 数组 并 未 声明 为 常量 。 数 
组 中 键 一 值 对 的 顺序 是 任意 的 。 


Table_free 必 须 释 放 各 个 binding 结 构 实 例 和 Table_T 结 构 本 喘 。 仅 
当 表 非 空 时 ， 才 需要 前 一 个 步骤 : 


(Functions 


92) += 
void Table _free(T *table) { 
assert(table && *table); 
if ((*table)->length > 0) { 
int 1; 
struct binding *p, *q; 
for (i = 0; i < (*table)->size; i++) 
for (p = (*table)->buckets[i]; p; p =q) { 
q = p->link; 
FREE(p); 


} 
FREE(*table); 


8.4 扩展 阅读 


表 是 如 此 之 有 用 ， 以 至 于 许多 编程 语言 将 其 作为 内 建 数 据 类 型 。 
AWK[Aho, Kernighan and Weinberger，1988] 是 一 个 新 近 的 例子 ， 但 表 
更 早 就 出 现在 SNOBOL4[Griswold，1972] 中 ， 而 后 也 出 现在 SNOBOL4 
的 后 继 者 Icon[Griswold and Griswold，1990] 中 。SNOBOL4 和 Icon 中 的 


表 可 以 用 任何 类 型 的 值 索 引 ， 也 可 以 容纳 任何 类 型 的 值 ， 但 AWK 中 的 
K 〈 称 作 数组 ) 只 能 用 字符 串 和 数字 索引 ， 也 只 能 容纳 字符 串 和 数 
字 。Table 接 口 的 实现 ， 使 用 了 Icon[Griswold and Griswold， 1986] 中 用 
于 实现 表 的 一 些 技术 © 


PostScript[Adobe Systems , 1990] 这 种 页 面 描述 语言 ( page- 
description language) 也 有 表 ， 称 之 为 字典 (dictionary) ° PostScript# 
只 能 通过 “名 字 ” 来 索引 ， 这 实际 上 是 PostScript 的 原子 版 本 ， 但 
PostScript 表 可 以 容纳 任何 类 型 的 值 (包括 字典 ) 。 


表 也 出 现在 面向 对 象 语言 中 ， 或 者 是 内 建 类 型 的 形式 ， 或 者 以 库 
的 形式 提供 。SmallTalk 和 Objective-C 的 基础 库 都 包括 字典 ， 与 Table 接 
口 所 定义 的 表 非 常 类 似 。 这 些 类 型 的 对 象 通常 称 作 容 右 对 象 ， 因 为 它 
们 可 以 容纳 很 多 其 他 对 象 。 


Table 的 实现 使 用 了 固定 大 小 的 哈 希 表 。 只 要 负载 系数 (load 
factor， 即 表 项 的 数目 除 以 哈 希 桶 的 数目 ) 较 小 ， 只 需 查 看 几 项 即 可 找 
到 键 。 但 在 负载 系数 过 高 时 ， 人 性 能 会 受 损 。 一 旦 负载 系数 超过 某 个 国 
fa (假定 是 5) ， 就 扩展 哈 希 表 ， 可 以 将 负载 系数 维持 在 合理 的 范围 
内 。 习 题 8.5 探 讨 了 动态 哈 希 表 的 一 种 有 效 但 幼稚 的 实现 ， 该 方法 会 扩 
展 哈 希 表 并 重新 散 列 所 有 现存 的 表 项 。[Larson，1988] 非 常 详细 地 描述 
了 一 种 更 复杂 的 方法 ， 其 中 哈 希 表 是 逐渐 扩展 (或 收缩 ) 的 ， 每 次 处 
理 一 个 哈 硕 链 。Larson 的 方法 无 需 hint， 而 且 可 以 和 省 内 存 ， 因 为 它 使 
得 所 有 的 表 最 初 都 只 需要 少量 的 哈 希 桶 。 


8.5 “习题 


8.1 天 联 表 ADT 有 许多 可 行 的 方案 。 例 如 ， 在 Table 的 早期 版 本 
中 ，Table_get 返 回 指向 值 的 指针 而 不 是 值 本 丑 ， 因 此 客户 程序 可 以 改 
变 表 中 存储 的 值 。 在 一 种 设计 中 ，Table_put 总 是 回 表 添加 一 个 新 的 
binding 实 例 (即使 键 已 经 存在 ， 实 际 上 用 同一 个 键 “ 隐 藏 > 此 前 存在 
的 binding 实 例 ， 而 Table remove 只 删除 最 近 添 加 的 binding 实 例 。 但 
Table_map 会 访问 table 中 所 有 的 binding 实 例 。 讨 论 这 些 及 其 他 方案 的 优 
缺点 。 设 计 并 实现 一 个 不 同 的 表 ADT。 


8.2 Table 接 口 的 设计 使 得 可 以 用 其 他 数据 结构 类 实现 表 。 例 如 ， 
如 采 比 较 函 数 可 以 给 出 两 个 键 的 相对 顺序 ， 那 么 聊 可 以 使 用 树 来 实现 
Table 接 口 。 使 用 二 又 查找 树 或 红 黑 树 重 新 实现 Table 接 口 。 这 些 数据 结 
构 的 细 和 ， 请 参见 [Sedgewick，1990]。 


8.3 Table_ map 和 Table toArray 访 问 表 中 各 binding 实 例 的 顺序 是 
未 指定 的 。 假 定 要 修改 接口 ， 使 得 Table_map 按 binding 实 例 添 加 到 表 的 
顺序 来 访问 各 实例 ， 而 Table_toArray 返 回 的 数组 中 ， 各 个 binding 实 例 
也 具有 相同 的 顺序 。 请 实现 该 修正 。 该 行为 有 什么 实际 的 好 处 ? 


8.4 ”假定 Table 接 口 规定 ，Table_map 和 Table_toArray 按 排序 次 序 
访问 各 binding 实 例 。 该 规定 将 使 Table 的 实现 复杂 化 ， 但 将 简化 需要 对 
binding 实 例 排序 的 客户 程序 (如 wf) 的 工作 。 讨 论 该 提议 的 优点 并 实 
现 它 。 提 示 : 在 当前 的 实现 中 ，Table_put 的 平均 情况 运行 时 间 是 常数 
量 级 ，Table_get 也 几乎 是 如 此 。 在 修改 后 的 实现 中 ，Table_ put 和 
Table_get 的 平均 情况 运行 时 间 如 何 ? 


8.5 Table 接口 的 当前 实现 中 ， 在 buckets 分 配 后 不 会 扩展 或 收缩 。 
修改 Table 接 口 的 实现 ， 使 得 随 着 键 一 值 对 的 增删 ， 修 改 后 的 实现 能 够 


使 用 一 种 局 发 式 逻 辑 来 周期 性 地 调整 puckets 的 大 小 。 设 计 一 个 测试 程 
序 来 检验 你 的 局 发 式 逻 辑 的 有 效 性 ， 并 测量 其 好 处 。 


8.6 实现 [Larson，1988] 中 描述 的 线性 动态 散 列 算法 ， 并 对 照 你 
对 前 一 道 习 题 的 解答 ， 比 较 二 者 的 性 能 。 


8.7 ”修改 wfc， 以 测量 因 从 不 释放 原子 而 损失 的 内 存 空间 数量 。 


8.8 修改 wfc 的 compare 函 数 ， 使 之 按 计数 值 递减 次 序 对 数组 进行 
排序 。 


8.9 ”修改 wfc， 使 之 按 文件 名 字母 顺序 来 处 理 各 个 文件 参数 并 输 
出 。 这 样 改变 后 ， 在 8.2 厄 开头 给 出 的 例子 中 ， 对 mem.c 的 统计 将 出 现 
在 对 table.c 的 统计 之 前 。 


Bon RA 


集合 (set) 是 不 同 成 员 的 无 序 汇集 。 对 集合 的 基本 操作 包括 检 
验 成 员 资 格 、 添 加 成 员 和 删除 成 员 。 其 他 操作 包括 集合 的 并 、 交 、 差 
和 对 称 差 。 给 定 两 个 集合 s 和 t， 并 集 s+t 是 包含 s 和 t 中 所 有 成 员 的 一 个 
集合 ， 交 和 集 s*t 包 含 所 有 既 出 现在 s 中 、 也 出 现在 t 中 成 员 ， 差 集 s-t 包 含 
PAM es ` MRE PAA, RAS AIC Fst, @ 
含 了 所 有 仅 出 现在 s 或 t 其 中 之 一 的 成 员 。 


描述 集合 时 ， 通 常会 用 到 全 集 (universe) ， 即 所 有 可 能 成 员 的 
集合 。 例 如 ， 字 符 的 集合 通 芝 关联 到 由 256 个 八 位 字符 码 构成 的 全 集 。 
当 确 定 了 全 集 U 时 ， 可 以 定义 集合 s 的 补 集 ， 即 U-s。 

由 Set 接 口 提供 的 集合 不 依赖 全 集 。 该 接口 导出 了 操作 集合 成 员 的 


玉 数 ， 但 从 不 直接 查看 集合 成 员 。 在 这 方面 ，Set 接 口 的 设计 类 似 于 
Table 接 口 ， 部 由 客户 程序 提供 函数 来 查看 特定 集合 中 成 员 的 属性 。 


应 用 程序 使 用 集合 的 方式 ， 与 使 用 表 的 方式 非常 相似 。 实 际 上 ， 
Set 接 口 定 义 的 集合 与 表 类 似 : 集合 成 员 是 键 ， 而 与 键 天 联 的 值 被 忽略 
Te 


91 接口 


(set.h 


》 三 
#ifndef SET_ INCLUDED 


#define SET_INCLUDED 


#define T Set_T 


typedef struct T *T; 
(exported functions 


100) 


#undef T 


#endif 


Set 接 口 导 出 的 函数 分 为 四 组 : SPACE > EARS IRIE RAT 
和 接受 集合 操作 数 并 返回 新 集合 的 操作 ， 如 集合 并 操作 。 前 三 组 中 的 
函数 与 Table 接 口中 的 函数 类 似 。 


Set_T 实 例 由 下 列 函数 分 配 和 释放 : 


(exported functions 


100) = 
extern T Set_new (int hint, 


int cmp(const void *x, const void *y), 
unsigned hash(const void *x)); 


extern void Set_free(T *set); 


Set new 分配、 初始 化 并 返回 一 新 的 T 实 例 。hint 是 对 集合 预期 会 包含 
的 成 员 数 目的 一 个 估计 ， 准 确 的 hint 值 可 能 会 提高 性 能 ， 但 任何 非 负 
值 都 是 可 接受 的 。cmp 用 来 比较 两 个 成 员 ，hash 用 来 将 成 员 映 射 到 无 
符号 整数 。 给 定 两 个 成 员 x 和 y，cmp(x,y) 针 对 x 小 于 y、x 等 于 y 或 x 大 于 
y 的 情形 ， 必 须 分 别 返 回 小 于 和 零 、 等 于 零 或 大 于 零 的 整数 。 如 果 
cmp(xy) 返 回 0， 那 么 x 和 y 中 只 有 一 个 会 出 现在 集合 中 ， 而 且 hash(x) 必 
定 等 于 hash(y)。Set new 可 能 引发 Mem_Failed 弄 党。 


如 果 cmp 为 NULL 函 数 指针 ， 那 么 假定 集合 的 成 员 为 原子 ， 如 果 
x=y， 那 么 两 个 成 员 x 和 y 就 是 相等 的 。 类 似 地 ， 如 果 hash 是 NULL 函 数 
指针 ，Set_new 会 自行 提供 一 个 适合 于 原子 的 哈 希 函数 。 


Set free 释放 *set 并 将 其 赋值 为 NULEL 指 针 。Set_ free 并 不 释放 集合 
的 成 员 ， 该 工作 可 使 用 Set_ map 完 成。 如 果 传 递 给 Set_free 的 set 或 *set 
为 NULL 指 针 ， 则 是 已 检查 的 运行 时 错误 。 


基本 的 集合 操作 由 下 列 函数 提供 : 


(exported functions 


100) += 

extern int Set_length(T set); 

extern int Set_member(T set, const void *member); 
extern void Set_put (T set, const void *member); 


extern void *Set_remove(T set, const void *member); 


Set_length 返 回 集合 的 势 (cardinality) ， 或 其 所 包含 成 员 的 数目 。 如 
果 member 在 set 中 ，Set_member 返 回 1， 和 否则 返回 0。Set_put 将 member 


添加 到 set (如 果 member 尚 不 在 set 中 ) ，Set_put 可 能 引发 Mem_Failed 
异常 。Set_remove 将 member 从 set 删 除 (如 果 set 包 含 了 member) ， 并 
返回 删除 的 成 员 (可 能 是 一 个 不 同 于 member 的 指针 ) 。 否 则 (BE 
member 不 在 set 中 ) ，Set_remove 什 么 都 不 做 并 返回 NULL。 传 递 给 上 
述 例 程 的 set 或 member 为 NULL， 则 是 已 检查 的 运行 时 错误 。 


下 列 男 数 届 历 一 个 集合 中 的 所 有 成 员 。 


(exported functions 


100) += 
extern void Set_map (T set, 
void apply(const void *member, void *cl), void *cl); 


extern void **Set_toArray(T set, void *end); 


Set_map 对 集合 的 每 个 成 员 都 调用 apply。 它 会 将 成 员 本 号 和 客户 程序 
相关 的 指针 dl 传递 给 apply。 它 并 不 查看 dd。 请 注意 ， 不 同 于 
Table map ，apply 不 能 改变 集合 的 成 员 。 如 果 传 递 给 Set_map 的 apply 或 
set 为 NULL ， 或 apply 调 用 Set_put 或 Set_remove 来 改变 set 的 内 容 ， 则 构 
成 已 检查 的 运行 时 错误 。 


Set toArray 返 回 一 个 指针 ， 指 回 一 个 N+1 个 元 素 的 数组 ， 其 中 以 
任意 顺序 包含 了 集合 的 N 个 元 素 。end 的 值 (通常 是 NULL 指 针 ) 赋值 
给 数组 的 第 N+1 个 元 素 。Set_toArray 可 能 引发 Mem_Failed 异 常 。 客 户 
程序 必须 释放 返回 的 数组 。 传 递 给 Set_toArray 的 set 为 NULL， 则 是 已 
检查 的 运行 时 错误 。 


下 列 各 函数 


(exported functions 


100) += 

extern T Set_union(T s, T t); 
extern T Set_inter(T s, T t); 
extern T Set_minus(T s, T t); 


extern T Set_diff (T s, T t); 


PUT ARATE A PA 4S SR GER TE © Set_unioni& Els+t, Set_interiX El 
skt，Set_minus 返 回 s-t，Set_diff 返 回 st。 所 有 这 4 个 函数 都 会 创建 并 返 
回 新 的 T 实 例 并 可 能 引发 Mem_Failed 异 常 。 这 些 函 数 将 为 NULL 的 s 或 t 
解释 为 空 集 ， 但 总 是 返回 一 个 新 的 、 非 NULL 的 工 实 例 。 因 而 ， 
Set_union(SNULL) 返 回 s 的 一 个 副本 。 对 于 上 述 各 个 函数 ， 如 果 s 和 {t 都 
是 NULL ， 或 s 和 t 都 不 是 NULL ， 但 二 者 的 比较 函数 和 哈 布 函数 不 同 
时 ， 则 构成 已 检查 的 运行 时 错误 。 即 ， 此 前 调用 Set_new 创 建 s 和 t 时 , 
必须 指定 了 相同 的 比较 函数 和 哈 硕 本 数 。 


9.2 Bil: 交叉 引用 列表 


xref 输 出 其 各 个 输入 文件 中 标识 符 的 交叉 引用 列表 ， 这 十 很 有 用 
的 ， 例 如 ， 可 用 于 找到 程序 源 文件 中 对 特定 标识 符 的 所 有 引用 。 例 
如 ， 


% xref xref.c getword.c 


FILE getword.c: 6 


xref.c: 18 43 72 


C getword.c: 7 8 9 10 11 16 19 22 27 34 35 


xref.c: 141 142 144 147 148 


输出 表明 ，FILE 用 于 getword.c 的 第 6 行 和 xref.c 的 第 18 行 、 第 43 行 和 第 
72 行 。 类 似 地 ，c 出 现在 getword.c 中 11 个 代码 行 ， 以 及 xref.c 中 的 5 个 代 
码 行 。 一 个 行 号 只 列 出 一 次 ， 即 使 该 标识 符 在 这 一 行 出 现 了 多 次 。 输 
出 按 排 序 次 序列 出 了 文件 和 行 号 。 


如 有 果 程 序 没 有 参数 ，xref 将 输出 标准 输入 中 的 标识 符 的 交叉 引 用 
列表 ， 并 省 略 上 述 的 样 例 输出 中 的 文件 名 : 


% cat xref.c getword.c | xref 


FILE 18 43 72 157 


c 141 142 144 147 148 158 159 160 161 162 167 170 173 178 
185 186 ... 


xref 的 实现 说 明了 如 何 协同 使 用 集合 和 表 。 它 建立 了 一 个 表 ， 由 
标识 符 索 引 ， 而 每 个 相关 联 的 值 则 是 另 一 个 表 ， 由 文件 名 索引 。 表 中 
的 值 是 集合 ， 包 含 了 才干 整数 指针 ， 指 问 标 识 符 出 现 的 行 号 。 图 9-1 描 
述 了 这 个 结构 ， 并 给 出 了 上 述 第 一 次 输出 后 与 标识 符 FILE 相 关 的 细 


节 。 在 单一 的 顶层 表 中 与 FILE (在 下 文 的 代码 中 ， 即 为 标识 符 的 值 ) 
相关 联 的 值 ， 是 一 个 处 于 第 二 层 的 表 Table T， 包 含 了 两 个 键 : 表示 
getword.c 和 xref.c 的 原子 。 与 这 些 键 关 联 的 值 是 Set_ TEM, BAER 
存 的 是 整数 指针 ， 指 向 FILE 出 现 的 行 号 。 在 顶层 表 中 ， 对 于 每 个 标识 
符 ， 都 有 一 个 二 级 表 ; 在 每 一 个 二 级 表 中 ， 每 个 键 一 值 对 中 的 值 都 是 


一 个 集合 。 


标识 符 


由 文件 名 索引 的 表 
(若干 rable_T 实例 ) 


由 标识 符 索 引 的 表 整数 指针 的 集合 
(一 个 Taple_7T 实例 ) (若干 set_T 实例 ) 


图 9-1 交叉 引用 列表 的 数据 结构 


(xref.c 


= 


(xref includes 


103) 


(xref prototypes 


104) 


(xref data 


105) 


(xref functions 


102) 


xref 的 main 范 数 与 wf 的 非常 相似 ， 它 创建 标识 符 表 ， 然 后 处 理 文件 名 
参数 。 它 会 分 别 打开 每 个 文件 ， 并 用 FILE 指 针 、 文 件 名 和 标识 符 表 作 
为 参数 ， 来 调用 xref 范 数 。 如 果 没 有 参数 ， 则 调用 xref 时 ， 传 递 的 参数 
是 NULL 文 件 名 指针 、 对 应 于 标准 输入 的 FILE 指 针 和 标识 符 表 : 


(xref functions 


102) = 
int main(int argc, char *argv[]) { 
int 1; 


Table_T identifiers = Table_new(0, NULL, NULL); 


for (i = 1; i < argc; i++) { 

FILE *fp = fopen(argv[i], "r"); 

if (fp == NULL) { 
fprintf(stderr, "%s: can't open '%s' (%s)\n", 

argv[0], argv[i], strerror(errno)); 

return EXIT_FAILURE; 

} else { 
xref(argv[i], fp, identifiers); 


fclose(fp); 


} 
if (argc == 1) xref(NULL, stdin, identifiers); 


(print the identifiers 


103) 
return EXIT_SUCCESS ， 


(xref includes 


103) = 

#include <stdio.h> 
#include <stdlib.h> 
#include <errno.h> 


#include "table.h" 


xref 会 建立 一 个 复杂 的 数据 结构 ， 如 有 果 首 先 考察 如 何 输出 该 数据 
结构 的 内 容 (通过 遍历 其 各 个 组 成 部 分 ， 那 么 就 更 容易 理解 如 何 建 
立 该 数据 结构 。 编 写 独立 的 代码 块 或 函数 来 分 别处 理 数 据 结构 的 各 个 
组 成 部 分 ， 有 助 于 读者 理解 志 历 过 程 的 细节 。 


第 一 步 建立 标识 符 及 其 值 (二 级 表 ) 的 数组 ， 并 按 标 识 符 对 数组 
排序 ， 然 后 壳 历数 组 调用 另 一 个 函数 print 来 处 理 各 个 二 级 表 。 这 个 
又 与 wf 的 代码 块 <print the words 103> 很 相似 。 


(print the identifiers 


103) = 


int 1; 
void **array = Table_toArray(identifiers, NULL); 
qsort(array, Table_length(identifiers), 
2*sizeof (*array), compare); 
for (i = 0; array[i]; i += 2) { 
printf("%s", (char *)array[i]); 
print(array[it+1]); 
} 
FREE(array); 


identifiers 中 的 各 个 键 是 原子 ， 因 此 传递 给 标准 库 函 数 qsort 的 比较 函数 
compare， 与 wf 中 使 用 的 compare 是 相同 的 ， 都 使 用 strcmp 来 比较 一 对 
标识 符 (8.2 节 解释 了 qsort 的 参数 ) : 


(xref functions 
102) += 
int compare(const void *x, const void *y) { 
return strcemp(*(char **)x, *(char **)y); 


(xref includes 


103) += 


#include <string.h> 


(xref prototypes 


104) = 


int compare(const void *x, const void *y); 


identifiers FH EMERE- he, KREA print BL ° IAN 
中 的 键 是 表示 文件 名 的 原子 ， 因 此 可 以 使 用 与 上 文 类 似 的 代码 ， 将 键 
和 值 导 出 到 一 个 数组 中 排序 并 过 历 。 


(xref functions 


102) += 
void print(Table_T files) { 
int 1; 


void **array = Table_toArray(files, NULL); 


qsort(array, Table_length(files), 2*sizeof (*array), 
compare); 
for (i = 0; array[i]; i += 2) { 
if (*(char *)array[i] != '\0') 
printf("\t%s:", (char *)array[i]); 


(print the line numbers in the set 


array[it1] 104) 


printf("\n"); 


FREE(array); 


} 
(xref prototypes 


104) += 


void print(Table_T); 


print 可 以 使 用 compare， 因 为 相关 的 键 只 是 字符 串 。 如 果 没 有 文件 名 参 
数 ， 那 么 传递 给 print 的 每 个 表 都 只 有 一 个 项 ， 其 键 是 一 个 零 长 度 的 原 
子 。print 使 用 该 约定 ， 来 避免 在 输出 行 号 列表 之 前 输出 文件 名 。 


传递 给 print 的 表 中 ， 每 个 值 都 是 一 个 行 号 的 集合 。 因 为 Set 实 现 了 
指针 的 集合 ，xref 用 指 癌 整数 的 指针 来 表示 行 号 ， 并 将 这 些 指针 添加 
到 集合 中 。 为 输出 它们 ， 程 序 调用 Set_toArray 构 建 并 返回 一 个 整数 指 
针 的 数组 ， 以 NULL 指 针 结 尾 ， 然 后 排序 该 数组 并 输出 整数 行 号 : 


(print the line numbers in the set 


array[i+1] 104) = 
{ 

int j; 

void **lines = Set_toArray(array[i+1], NULL); 

qsort(lines, Set_length(array[i+1]), sizeof (*lines), 
cmpint); 

for (j = 0; lines[j]; j++) 
printf(" %d", *(int *)lines[j]); 


FREE( lines); 


cmpint 与 compare 类 似 ， 但 其 参数 为 两 个 指 问 整数 的 双重 指针 ， 通 过 比 
较 整 数值 来 返回 结 末 : 


(xref functions 


102) += 
int cmpint(const void *x, const void *y) { 
if (**(int **)x < **(int **)y) 
return -1; 
else if (**(int **)x > **(int **)y) 
return +1; 
else 


return 0; 


(xref prototypes 


104) += 


int cmpint(const void *x, const void *y); 


xref 建 立 上 述 代码 输出 的 数据 结构 时 ， 使 用 的 是 此 前 讨论 过 的 代 
码 。 它 使 用 getword 从 输入 读 取 标识 符 。 对 于 每 个 标识 符 ， 程 序 从 数据 
结构 中 找到 对 应 的 集合 ， 并 将 当前 行 号 添加 到 集合 


(xref functions 


102) += 


void xref(const char *name, FILE *fp, 


Table_T identifiers){ 


char buf[128]; 


if (name == NULL) 
name = ""; 
name = Atom_string(name) ; 
linenum = 1; 
while (getword(fp, buf, sizeof buf, first, rest)) { 
Set_T set; 
Table_T files; 
const char *id = Atom_string(buf); 


(files ~ file table in 


identifiers associated with 


id 106) 


(set - set in 


files associated with 


name 106) 
(add 


linenum to 


set, if necessary 


107) 


(xref includes 


103) += 

#include "atom.h" 
#include "set.h" 
#include "mem.h" 


#include "getword.h" 


(xref prototypes 


104) += 


void xref(const char *, FILE *, Table_T); 


linenum 是 一 个 全 局 变量 ， 每 次 first 遇 到 一 个 换行 符 时 ， 都 将 linenum 加 
1，first 是 传递 给 getword 的 函数 指针 参数 ， 用 于 识别 标识 符 的 首 字母 : 


(xref data 


105) = 


int linenum; 


(xref functions 


102) += 
int first(int c) { 
if (c == '\n') 
linenum++; 


return isalpha(c) || c == '_'; 


int rest(int c) { 


return isalpha(c) || c == '_' || isdigit(c); 


(xref includes 


103) += 


#include <ctype.h> 


getword A ke (e828 El first#lrest HA, CZ7E8.2 P HANERE 。 


(xref prototypes 


104) += 
int first(int c); 


int rest (int c); 
罕 过 两 层 表 以 找到 适当 集合 的 代码 ， 必 须 处 理 数据 结构 中 某 些 部 


分 缺失 的 问题 。 例 如 ， 在 第 一 次 下 到 某 个 标识 从 时 ，identifiers 表 中 没 
有 对 应 的 项 ， 因 此 代码 需要 创建 文件 表 〈 下 面 代 码 中 的 fles 表 ) ， 并 


将 “标识 符 一 文件 表 ” 对 〈 下 面 代码 中 的 id 和 各 es) 即时 添加 到 identifiers 


K: 


(files - file table in 


identifiers associated with 


id 106) = 
files = Table_get(identifiers, id); 
if (files == NULL) { 

files = Table_new(0, NULL, NULL); 


Table_put(identifiers, id, files); 


类 似 地 ， 在 一 个 新 文件 中 第 一 次 过 到 某 个 标识 从 时 ， 行 号 的 集合 尚 不 
存在 ， 因 此 需要 创建 一 个 新 集 合并 将 其 添加 到 名 es 表 : 


(set - set in 


files associated with 


name 106) = 
set = Table_get(files, name); 
if (set == NULL) { 
set = Set_new(0, intcmp, inthash); 


Table_put(files, name, set); 


这 些 集 合 的 成 员 是 指向 整数 的 指针 ，intcemp 和 inthash 比 较 并 散 列 整数 
值 。intcmp 类 似 上 文 的 cmpint， 但 其 参数 是 集合 中 的 指针 ， 因 此 它 可 


以 调用 cmpint。 可 以 直接 用 整数 本 号 作为 其 哈 希 码 : 
(xref functions 
102) += 


int intcmp(const void *x, const void *y) { 


return cmpint(&x, &y); 


unsigned inthash(const void *x) { 


return *(int *)x; 
(xref prototypes 
104) += 


int intcmp (const void *x, const void *y); 


unsigned inthash(const void *x); 


在 控制 到 达 代 码 块 <add linenum to set, if necessary 107>FY , 


年 应 该 插入 当前 行 号 的 目标 集合 。 插 入 操作 由 下 述 代码 完成 : 


int *p; 
NEW(p); 
*p = linenum; 


Set_put(set, p); 


set 就 


但 如 果 set 已 经 包含 lnenum， 该 代码 将 产生 内 存 泄漏 ， 因 为 指向 新 分 配 
内 存 空间 的 指针 不 会 添加 集合 中 国 。 仅 当 linenum 不 在 set 中 时 才 分 配 
内 存 空间 ， 即 可 避免 内 存 污 漏 。 


(add 
linenum to 
set, if necessary 


107) = 
{ 
int *p = &linenum; 
if (!Set_member(set, p)) { 
NEW(p); 
*p = linenum; 


Set_put(set, p); 


9.3 ”实现 


Set 接 口 的 实现 与 Table 的 实现 非常 相似 。 它 用 哈 布 表 表 示 和 集合 ， 并 
使 用 比较 函数 和 哈 希 函数 在 表 中 定位 成 员 。 章 后 的 习题 ， 针 对 下 述 实 
现 和 Table 接 口 的 实现 ， 探 讨 了 一 些 可 行 的 备 选 方案 。 


#include <limits.h> 
#include <stddef.h> 
#include "mem.h" 
#include "assert.h" 
#include "arith.h" 
#include "set.h" 


#define T Set_T 
(types 


108) 


(static functions 


108) 


(functions 


108) 
Set_T 是 一 个 哈 希 表 ， 其 中 通过 链表 来 保存 集合 的 成 员 : 


(types 


108) = 


struct T { 


int length; 
unsigned timestamp; 
int (*cmp)(const void *x, const void *y); 
unsigned (*hash)(const void *x); 
int size; 
struct member { 
struct member *link; 
const void *member; 
} **buckets; 


}; 


length 是 集合 中 成 员 的 数目 ，timestamp 用 于 实现 Set map 中 的 已 检查 的 
运行 时 错误 ， 即 禁止 apply 修 改 集合 ，cmp 和 hash 分 别 指向 比较 画 数 和 
险 希 画 数 。 


类 似 Table_new，Set_new 会 为 buckets 数 组 计算 一 个 适当 的 容量 ， 
并 将 容量 值 记录 在 size 字 段 中 ， 并 分 配 struct 了 实例 和 buckets 数 组 所 需 
的 空间 : 


(Functions 


108) = 
T Set_new(int hint, 
int cmp(const void *x, const void *y), 
unsigned hash(const void *x)) { 
T set; 
int 1; 


static int primes[] = { 509, 509, 1021, 2053, 4093, 


8191, 16381, 32771, 65521, INT_MAX }; 


assert(hint >= 0); 
for (i = 1; primes[i] < hint; i++) 
i 
set = ALLOC(sizeof (*set) + 
primes[i-1]*sizeof (set->buckets[0])); 
set->size = primes[i-1]; 
set->cmp = cmp ? cmp : cmpatom; 
set->hash = hash ? hash : hashatom; 
set->buckets = (struct member **)(set + 1); 
for (i = 0; i < set->size; i++) 
set->buckets[i] = NULL; 
set->length = 0; 
set->timestamp = 0; 


return set; 


Set_new 使 用 hint 选 择 primes 中 的 一 个 值 ， 作 为 buckets 数 组 的 容量 ( 参 
W837) 。 如 果 成 员 是 原子 (cmp 或 者 hash 是 NULL 汞 数 指针 ， 即 表明 
这 一 点 ) ，Set_new 将 使 用 下 列 比较 和 哈 希 函数 ， 这 与 Table_new 使 用 
的 函数 是 相同 的 。 


(static functions 


108) = 


static int cmpatom(const void *x, const void *y) { 


return x != y; 


static unsigned hashatom(const void *x) { 


return (unsigned long)x>>2; 


9.3.1 ”成 员 操作 


检 难 成 员 资 格 类 似 在 表 中 查找 键 : 散 列 所 检验 的 成 员 ， 并 搜索 
buckets 中 与 散 列 值 对 应 的 链表 


(Functions 


108) += 
int Set_member(T set, const void *member) { 
int 1; 


struct member *p; 


assert(set); 


assert(member ); 


(search 


set for 


member 109) 


return p != NULL; 


(search 


set for 


member 109) = 
i = (*set->hash) (member )%set->size; 
for (p = set->buckets[1i]; p; p = p->link) 
if ((*set->cmp)(member, p->member) == 0) 


break; 


如 果 搜 索取 得 成 功 ， 那 么 p 不 是 NULL ， 和 否则 为 NULL ， 因 此 检验 p 即 可 
ME Set member 的 结果 。 


添加 一 个 新 成 员 的 过 程 类 似 : 搜索 集合 查找 该 成 员 ， 如 采 搜 索 失 
败 则 添加 它 。 


(functions 


108) += 
void Set_put(T set, const void *member) { 
int 1; 


struct member *p; 


assert(set); 


assert(member ); 


(search 


set for 


member 109) 
if (p == NULL) { 
(add 


member t 


0 set 109) 
} else 
p->member = member; 


set->timestampt++; 


(add 


member to 


set 109) = 

NEW(p); 

p->member = member, 
p->link = set->buckets[i]; 
set->buckets[i] = p; 


set->length++; 


timestamp 用 于 Set_map 中 ， 以 强制 实施 已 检查 的 运行 时 错误 。 


Set_remove 会 删除 一 个 成 员 ， 该 函数 使 用 一 个 指 癌 member 结 构 的 
双重 指针 pp 通 历 适当 的 哈 硕 链 ， 直 至 *pp 为 NULL 或 (*pp)->member 即 为 
我 们 感 兴 趣 的 成 员 ， 后 一 种 情况 下 ， 下 述 代 码 中 的 赋值 操作 *pp= 
(*pp)->link 即 可 从 哈 硕 链 中 删除 该 成 员 。 


(Functions 


108) += 
void *Set_remove(T set, const void *member) { 
int 1; 


struct member **pp; 


assert(set); 
assert(member ) ; 
set->timestamp++; 
i = (*set->hash) (member )%set->size; 
for (pp = &set->buckets[i]; *pp; pp = &(*pp)->link) 
if ((*set->cmp)(member, (*pp)->member) == 0) { 
struct member *p = *pp; 
*pp = p->link; 
member = p->member; 
FREE(p); 
set->length--; 


return (void *)member; 


return NULL; 


(E Appi Ala Abe, AEH S Table remove 相同 的 惯用 法 ， 请 参见 


8.375 ° 


Set remove 和 Set_put 通 过 将 集合 的 length 字 段 减 1 和 加 1 来 跟 踩 集 
中 成 员 的 数目 ，Set_length 函 数 会 返回 该 字段 : 


(Functions 


108) += 
int Set_length(T set) { 
assert(set); 


return set->length; 


如 采集 合 是 非 空 的 ，Set_free 首 先 必 须 裔 历 各 个 哈 硕 链 ， 释 放 其 中 


的 member 结 构 实 例 ， 然 后 才能 释放 集合 本 喘 并 将 *set 清 零 。 


(Functions 


108) += 

void Set_free(T *set) { 
assert(set && *set); 
if ((*set)->length > 0) { 
int 1; 


struct member *p, *q; 


for (i = 0; i < (*Set)->size; i++) 


for (p = (*set)->buckets[i]; p; p= q) { 


q = p->link; 
FREE(p); 
Í 


} 
FREE(*set); 


Set_map 与 Table map 几乎 相同 : ES Aa Sa RE, FRYE 
成 员 调 用 apply。 


(functions 


108) += 

void Set_map(T set, 
void apply(const void *member, void *cl), void *cl) { 
int 1; 
unsigned stamp; 


struct member *p; 


assert(set); 
assert(apply); 
stamp = set->timestamp; 
for (i = 0; i < set->size; i++) 
for (p = set->buckets[i]; p; p = p->link) { 
apply(p->member, cl); 


assert(set->timestamp == stamp); 


一 个 差别 是 ，Set_map 将 每 个 成 员 〈 而 不 是 指向 每 个 成 员 的 指针 ) 传递 
给 apply， 因 此 apply 不 能 改变 集合 中 的 指针 。 但 它 仍然 可 以 通过 转换 ， 
来 修改 这 些 成 员 所 指向 的 值 ， 这 会 破坏 集合 的 语义 。 


Set_toArray 比 Table_toArray 人 简单 ， 类 似 List_toArray， 它 只 需 分 配 
一 个 数组 并 将 集合 的 成 员 复 制 到 数组 中 : 


(Functions 


108) += 

void **Set_toArray(T set, void *end) { 
int i, j = 90; 
void **array; 


struct member *p; 


assert(set); 
array = ALLOC((set->length + 1)*sizeof (*array)); 
for (i = 0; i < set->size; i++) 
for (p = set->buckets[1i]; p; p = p->link) 
array[j++] = (void *)p->member; 
array[j] = end; 


return array; 


p->member 必 须 从 const void* 转 换 为 void* ， 因 为 数组 并 未 声明 为 


o 


val 


ct 


9.3.2 ”集合 操作 


所 有 4 个 集合 操作 的 实现 都 是 类 似 的 。 例 如 ，s + t 通 过 将 s 和 t 的 每 
个 成 员 都 添加 到 一 个 新 的 集合 来 实现 ， 实 现时 可 以 首先 建立 s 的 一 个 副 
本 ， 而 后 将 { 的 各 个 成 员 都 添加 到 副本 中 〈 如 果 尚 未 包含 在 该 集合 中 的 
话 ) : 


(Functions 


108) += 
T Set_union(T s, T t) { 
if (s == NULL) { 
assert(t); 
return copy(t, t->size); 
} else if (t == NULL) 
return copy(s, S->size); 
else { 
T set = copy(s, Arith_max(s->size, t->size)); 
assert(s->cmp == t->cmp && s->hash == t->hash); 


{ (for each member 


t 112) 


Set_put(set, q->member); 


J 


return set; 


(for each member 


q in 


t 112) = 

int i; 

struct member *q; 

for (i = 0; i < t->size; i++) 


for (q = t->buckets[i]; q; q = q->link) 


内 部 函数 copy 返 回 其 参数 的 一 个 副本 ， 人 参数 必须 不 能 为 NULL © 
(static Functions 
108) += 


static T copy(T t, int hint) { 


T set; 


assert(t); 


set = Set_new(hint, t->cmp, t->hash); 


{ (for each member 


q in 


t 112) 
(add 


q->member to 


set 112) 
} 
return set; 
} 
(add 


q->member to 


set 112) = 
{ 
struct member *p; 
const void *member = q->member; 
int i = (*set->hash) (member )%set->size; 


(add 


member to 


set 109) 
} 


Set_union 和 copy 都 可 以 访问 特许 信息 : 它们 都 知道 集合 的 表示 ， 因 而 
可 以 通过 问 Set_new 传 递 适当 的 hint 值 ， 来 为 新 的 集合 指定 哈 锅 表 的 大 
小 。Set_union 在 建立 s 的 副本 时 需要 提供 hint， 它 使 用 s 或 中 较 大 的 哈 
布 表 的 容量 ， 因 为 结果 集合 包含 的 成 员 数 目 ， 至 少 等 于 Set_union 中 最 
大 的 参数 集合 的 成 员 数 。copy 可 以 调用 Set_put 将 每 个 成 员 添 加 a 到 副本 
集合 中 ， 但 它 使 用 <add q->member to set 155> 代 人 码 块 ， 这 使 得 添加 探 
作 更 为 直接 ， 避 免 了 Set_put 中 不 必要 的 搜索 步骤 。 


交集 操作 s*t， 将 利用 s 或 t 中 较 小 的 哈 希 表 创 建 一 个 新 的 集合 ， 仅 
当 某 个 成 员 同 时 出 现在 s 和 t 中 时 ， 才 将 其 添加 到 新 的 集合 : 


(functions 


108) += 
T Set_inter(T s, Tt) { 
if (s == NULL) { 
assert(t); 
return Set_new(t->size, t->cmp, t->hash); 
} else if (t == NULL) 
return Set_new(s->size, s->cmp, s->hash); 
else if (s->length < t->length) 
return Set_inter(t, s); 
else { 
T set = Set_new(Arith_min(s->size, t->size), 


s->cmp, s->hash); 


assert(s->cmp == t->cmp && s->hash == t->hash); 


{ (for each member 


t 112) 
if (Set_member(s, q->member)) 


(add 
q->member to 


set 112) 
} 


return set; 


如 果 s 成 员 数 比 t 少 ， 那 么 Set_inter 将 在 调换 s 和 t 之 后 ， 递 归 调 用 目 身 辣 
。 这 使 得 最 后 一 个 else 子 句 中 的 for 循 环 将 志 历 较 小 的 集合 。 


差 集 操 作 s-t 将 创建 一 个 新 集合 ， 并 将 s 中 那些 不 属于 t 的 成 员 添 加 
到 新 集合 中 。 下 述 代 码 调换 了 参数 的 名 称 ， 以 便 使 用 代码 块 <for each 
member q qd 训 t112> 来 过 历 S: 


(Functions 


108) += 


T Set_minus(T t, T s) { 

if (t == NULL){ 
assert(s); 
return Set_new(s->size, s->cmp, s->hash); 

} else if (s == NULL) 
return copy(t, t->size); 

else { 
T set = Set_new(Arith_min(s->size, t->size), 

s->cmp, s->hash); 

assert(s->cmp == t->cmp && s->hash == t->hash); 


{ (for each member 


q in 


t 112) 


if (!Set_member(s, q->member)) 


(add 


q->member to 


set 112) 


} 


return set; 


对 称 差 操作 st 创建 的 集合 中 ， 其 成 员 只 出 现在 s 或 { 其 中 一 个 集合 
中 ， 而 不 会 同时 出 现在 s 和 t 中 。 如 果 s 或 { 是 空 集 ， 那 么 st 等 于 { 或 s。 
Wl), stSeF(s-t)+(t-s), BU Ea is, KRAZE Re I 
合 中 ， 而 后 遍历 {t， 将 不 在 s 中 的 各 个 成 员 添 加 到 新 集合 。 代 码 块 <for 


each memberdq 识 t112> 可 以 用 于 这 两 次 壳 历 ， 只 需要 在 两 次 遇 历 之 间 


切换 s 和 t 的 值 即 可 : 


(functions 


108) += 
T Set_diff(T s, Tt) { 
if (s == NULL) { 
assert(t); 
return copy(t, t->size); 
} else if (t == NULL) 
return copy(s, S->size); 
else { 
T set = Set_new(Arith_min(s->size, t->size), 
s->cmp, s->hash); 
assert(s->cmp == t->cmp && s->hash == t->hash); 


{ (for each member 


t 112) 


if (!Set_member(s, q->member)) 


(add 


q->member to 


set 112) 
} 
{Tu=t; t =sj; s =u; } 
{ (for each member 

q in 

t 112) 


if (!Set_member(s, q->member) ) 


(add 


q->member to 


set 112) 


J 


return set; 


这 4 个 操作 的 更 高 效 实 现 是 可 能 的 ， 习 题 探讨 了 其 中 一 些 方案 。 一 
个 特例 是 当 s 和 t 中 的 哈 布 表 容 量 相 同时 ， 这 对 一 些 应 用 程序 可 能 是 比 


较 重 要 的 ， 参 见习 题 9.7。 


9.4 扩展 阅读 


Set 接 口 导 出 的 集合 模仿 了 Icon[Griswold and Griswold，1990] 中 的 
集合 ， 其 实现 也 类 似 于 Icon[Griswold and Griswold，1986] 中 的 实现 。 
对 于 固定 的 、 较 小 的 全 集 来 说 ， 通 常 使 用 位 同 量 来 表示 和 集合， 第 13 章 
措 述 了 使 用 该 方法 的 一 个 接口 。 


Icon 是 将 集合 作为 内 建 数据 类 型 的 少数 语言 之 一 。 集 合 是 SETL 中 
的 中 心 数 据 类 型 ， 其 大 部 分 运算 符 和 控制 结构 都 用 来 操作 集合 。 


9.5 “习题 


9.1 使 用 Table 接 口 实现 Set 接 口 。 


9.2 ”使 用 Set 接 口 实现 Table 接 口 。 


9.3 ”Set 和 Table 接 口 的 实现 有 许多 共同 之 处 。 设 计 并 实现 男 一 个 
接口 ， 提 炼 出 二 者 的 共同 特性 。 该 接口 的 目的 是 ， 文 持 类 似 集合 和 表 
的 ADT 的 实现 。 使 用 你 的 新 接口 ， 重 新 使 用 Set 和 Table 接 口 。 


9.4 为 包 (bag) 设计 一 个 接口 。 包 类 似 集合 ， 但 其 成 员 可 以 出 
现 多 次 。 例 如 ，{1 2 3} 是 一 个 整数 集合 ， 而 {1 12 2 3} 是 一 个 整数 包 。 
使 用 前 一 道 习 题 中 设计 的 支持 接口 ， 来 实现 本 接口 。 


9.5 ”copy 在 创建 其 参数 集合 的 副本 时 ， 每 次 复制 一 个 成 员 。 因 为 
它 知 道 副 本 中 成 员 的 数目 ， 因 此 可 以 一 次 性 地 分 配 所 有 的 member 结 构 


实例 ， 然 后 在 填充 副本 集合 时 将 这 些 member 实 例 添加 到 适当 的 哈 硕 
链 。 实 现 该 方案 并 测量 其 好 处 。 


9.6 ”通过 在 member 结 构 中 存储 哈 布 码 ， 可 能 使 一 些 集合 操作 更 高 
效 ， 这 样 对 每 个 成 员 只 需 调 用 一 次 hash， 仅 当 哈 希 码 相等 时 才 需 要 调 
用 比较 函数 。 分 析 此 项 改进 预期 会 市 省 的 时 间 ， 如 果 看 起 来 值得 ， 那 
么 实现 该 改进 并 测量 改进 后 的 结 


9.7“” 当 s 和 t 中 哈 硕 桶 数目 相同 时 ，s+t 相 当 于 位 于 相同 哈 希 链 上 的 
各 个 子 集 的 并 集 。 有 即 stt 中 的 每 个 哈 希 链 ， 是 s 和 t 中 对 应 哈 希 链 上 的 成 
员 的 并 集 。 这 种 情况 经 前 发 生 ， 因 为 许多 应 用 程序 在 调用 Set_new 时 指 
定 了 相同 的 hint。 改变 s +t、s *t、s-t 和 s/t 的 实现 ， 以 检测 这 种 情 
况 ， 并 对 其 使 用 更 简单 、 更 高 效 的 实现 。 


9.8 ”如果 一 个 标识 符 出 现在 几 个 连续 行 中 ，xref 将 输出 每 一 个 行 
号 。 例 如 : 


C getword.c: 7 8 9 10 11 16 19 22 27 34 35 


(Etoxrefic, ELENERI S SRA Miia: 


C getword.c: 7-11 16 19 22 27 34-35 


9.9 ” xref 分 配 大 量 内 存 ， 但 仪 释放 Table_toArray 创 建 的 数组 。 修 
改 xref， 使 之 最 终 释放 它 分 配 的 所 有 东西 (当然 ， 原子 除外 ) 。 在 数 
据 结构 输出 时 ， 很 容易 增 量 式 地 完成 释放 工作 。 使 用 习题 5.5 的 答 深 ， 
来 确认 是 否 释 放 了 所 有 分 配 的 东西 。 


9.10 ”解释 cempint 和 intcemp 为 何 使 用 显 式 比较 来 比较 整数 ， 而 不 是 
返回 二 者 相 减 的 结果 。 即 cmpint 的 下 述 版 本 看 起 来 简单 得 多 ， 它 有 什 


么 问题 呢 ? 


int cmpint(const void *x, const void *y) { 


return **(int **)x - **(int **)y; 


[1] 应 当 坪 集合 ， 不 是 表 。 译 者 注 


[2] 其 实 可 以 直接 调换 s 和 t， 不 必要 递归 。 译 者 注 


第 10 章 ”动态 数组 


数组 是 由 相同 类 型 值 组 成 的 一 个 序列 ， 序 列 中 的 元 素 以 一 对 一 的 
方式 关联 到 某 个 连续 范围 内 的 索引 值 。 在 几乎 所 有 编程 语言 中 ， 都 把 
某 些 形式 的 数组 作为 内 建 的 数据 类 型 。 在 某 些 语言 (如 C 语 言 ) P, 
所 有 数组 索引 值 有 共同 的 下 界 ， 而 在 其 他 的 语言 中 (如 Modula-3) ， 
每 个 数组 都 可 以 有 目 身 的 索引 值 边界 。 在 C 语 言 中 ， 所 有 数组 的 索引 
都 从 0 开始 。 


数组 的 大 小 可 以 在 编译 时 或 运行 时 指定 。 静 态 数组 的 大 小 在 编译 
时 就 十 已 知 的 。 例 如 ， 在 C 语 言 中 声明 数组 时 ， 数 组 的 大 小 必须 在 编 
译 时 束 古 已 知 的 ， 即 在 声明 int a[n] 中 ，n 必 须 是 第 量 表达 式 。 议 人 态 数 组 
可 以 在 运行 时 分 配 ， 例 如 ， 作 为 局 部 变量 的 数组 ， 就 古 在 运行 时 调用 
其 所 在 函数 时 分 配 的 ， 但 其 大 小 是 编译 时 束 是 已 知 的 。 


像 Table toArray 这 样 的 函数 返回 的 数组 是 动态 数组 ， 因 为 其 内 存 
空间 是 通过 调用 malloc 或 等 效 的 分 配 函 数 分 配 的 。 因 此 ， 他 们 的 大 小 
可 以 在 运行 时 确定 。 一 些 语言 (如 Modula-3) ， 在 语言 层面 支持 动态 
数组 。 但 在 C 语 言 中 ， 动 态 数组 必须 显 式 构造 ， 如 Table toArray 函 数 所 
Fo 


Fito Array EA EB A T ARES AAA, AS RCRA Array 
ADT 提 供 了 一 种 类 似 但 更 为 通用 的 设施 。 它 导出 的 函数 可 以 分 配 并 释 
放 动 态 数 组 ， 可 以 访问 动态 数组 并 进行 边界 检查 ， 可 以 扩展 或 收缩 动 
仿 数 组 以 容纳 更 多 或 更 少 的 元 素 。 


本 章 还 朱 述 了 ArrayRep 接 口 。 对 少数 需要 更 高 效 地 访问 数组 元 素 
的 客户 程序 ， 该 接口 披露 了 动态 数组 的 表示 细节 。Array 和 ArrayRep 共 
同 说 明了 一 个 二 级 接口 或 分 层 的 接口 。Array 规 定 了 数组 ADT 的 高 层 
视图 ，ArrayRep 规 定 了 该 ADT 在 较 低层 次 上 的 另 一 个 更 详细 的 视图 。 
这 种 组 织 方 式 的 好 处 在 于 ， 如 果 有 客户 程序 导入 了 ArrayRep 接 口 ， 那 
么 很 显然 ， 它 们 将 依赖 于 动态 数组 的 表示 。 对 表示 的 修改 将 只 影响 此 
类 客户 程序 ， 而 不 会 影响 到 只 导入 Array 接 口 的 那些 客户 程序 〈 比 前 一 


类 多 得 多 ) 。 
10.1 接口 


如 下 的 Array ADT 


(array.h 
》 三 
#ifndef ARRAY_INCLUDED 


#define ARRAY_INCLUDED 


#define T Array_T 


typedef struct T *T; 


(exported functions 


117) 


#undef T 


#endif 


导出 了 一 些 函 数 ， 可 以 操作 包含 N 个 元 到 的 数组 ， 通 过 索引 值 0 到 N-1 
访问 。 特 定数 组 中 的 每 个 元 素 都 是 定 长 的 ， 但 不 同 数组 的 元 素 可 以 有 
不 同 的 大 小 。Array_T 实 例 通过 下 列 画 数 分 配 和 释放 : 


(exported functions 


117) = 
extern T Array_new (int length, int size); 


extern void Array_free(T *array); 


Array_new 分 配 、 初 始 化 并 返回 一 个 新 的 数组 ， 包 含 length 个 元 素 ， 可 
以 用 索引 值 0 到 length-1 访 问 ， 在 length 为 0 时 ， 数 组 不 包含 任何 元 素 。 
每 个 元 系 占 size 字 节 “。 每 个 元 素 中 的 各 个 字 节 都 初始 化 为 0。size 必 须 
包含 对 齐 所 需 的 填充 字 节 ， 这 样 ， 在 length 为 正 值 时 ， 直 接 分 配 length 
* size 个 字 节 即 可 创建 数组 。 如 果 length 为 负 值 或 size 不 是 正 值 ， 则 造成 
已 检查 的 运行 时 错误 ，Array_new 可 能 引发 Mem_Failed 异 常 。 


Array_free 释 放 *array 并 将 其 清 零 。 如 有 末 array 或 *array 是 NULL Jl) 
是 已 检查 的 运行 时 错误 。 


不 同 于 本 书 中 大 部 分 其 他 ADT 在 void 指针 基础 上 建立 结构 的 方 
式 ，Array 接 口 对 元 素 的 值 不 作 任何 限制 ， 每 个 元 素 只 十 一 个 字 节 序 
列 ， 包 含 size 个 字 刘 。 这 种 设计 的 基本 原理 是 ，Array_T 通 常用 于 构建 
其 他 ADT: 第 11 革 描述 的 序列 就 是 一 个 例子 。 


下 列 各 函数 


(exported functions 


117) += 
extern int Array_length(T array); 


extern int Array_size (T array); 


返回 array 中 元 素 的 数目 及 元 素 的 大 小 。 数 组 元 素 通 过 下 列 函 数 访问 : 


(exported functions 


117) += 
extern void *Array_get(T array, int i); 


extern void *Array_put(T array, int i, void *elem); 


Array_get 返 回 指向 编号 为 i 的 元 素 的 指针 ， 类 比 而 言 ， 假 定 a 声 明 为 C 语 
言 数 组 ， 那 么 该 函数 的 语义 类 似 于 &afil。 客 户 程序 通过 反 引 用 
Array_get 返 回 的 指针 ， 即 可 访问 元 素 的 值 。Array_put 用 elem 指 向 的 新 
元 素 ， 履 盖 元 系 i 的 值 。 不 同 于 Table_put，Array_put 返 回 elem。 它 不 能 
返回 元 系 i 先 前 的 值 ， 因 为 元 素 未 必 是 指针 ， 而 且 元 素 也 可 能 是 任意 字 
TiS? 


如 果 i 大 于 或 等 于 array 的 长 度 ， 或 elem 是 NULL ， 则 是 已 检查 的 运 
行 时 错误 。 首 先 调用 Array_get， 而 后 在 反 引 用 Array_get 返 回 的 指针 之 
前 ， 通 过 Array_resize 改 变 array 的 大 小 ， 则 造成 未 检查 的 运行 时 错误 。 
如 有 果 elem 指 向 的 内 存 空间 ， 以 任何 方式 与 array 的 第 i 个 元 素 的 内 存 空间 
重合 ， 都 是 未 检查 的 运行 时 错误 。 


(exported functions 


117) += 
extern void Array_resize(T array, int length); 


extern T Array_copy (T array, int length); 


Array_resize 改 变 array 的 大 小 ， 使 之 能 够 容纳 length 个 元 素 ， 会 根 
据 需要 扩展 或 收缩 数组 。 如 果 length 超 过 数组 的 当前 长 度 ， 则 增加 的 新 
元 素 被 初始 化 为 0。 调 用 Array_resize， 将 使 此 前 调用 Array_get 返 回 的 
值 都 变 为 无 歼 。Array_copy 的 语义 类 似 ， 但 将 返回 array 的 一 个 副本 ， 
包含 array 的 前 length 个 元 素 。 如 果 length 超 过 array 中 元 系 的 数目 ， 副 本 
中 过 多 的 那些 元 素 将 被 初始 化 为 0。Array_resize 和 Array_copy 可 能 引发 


Mem Failed $% ° 


Array 没 有 类 似 Table_map 和 Table_toArray 的 琅 数 ， 因 为 Array_get 
提供 了 执行 等 效 操作 的 必要 手段 。 


向 该 接口 中 任何 画 数 传递 的 T 值 为 NULL， 都 是 已 检查 的 运行 时 钳 
误 。 

ArrayRep 接 口 揭示 了 Array_T 是 由 指向 描述 符 的 指针 表示 的 ， 描 
迹 符 结构 的 各 个 字段 给 出 了 数组 中 元 素 的 数目 、 元 素 的 大 小 和 指向 数 
组 内 存 空间 的 指针 。 


(arrayrep.h 


y= 
#ifndef ARRAYREP_INCLUDED 


#define ARRAYREP_INCLUDED 
#define T Array_T 


struct T { 
int length; 
int size; 
char *array; 


}; 


extern void ArrayRep_init(T array, int length, 


int size, void *ary); 


#undef T 


#endif 


10-1 给 出 Array_new(100, sizeof int) [2] A E 100A RRETH 
述 符 ， 所 运行 的 机 器 上 整数 为 4 字 节 。 如 果 数 组 没有 元 素 ，array 字 段 
为 NULL。 数 组 描述 符 有 时 也 称 为 信息 矢量 (dope vector) 。 


length 
size 


array 


图 10-1 Array_New(100, sizeof int) 创 建 的 Array_T 实 例 


ArrayRep 的 客户 程序 可 以 读 取 描 述 符 的 各 字段 ， 但 不 能 写 这 些 字 
段 ， 否 则 会 造成 未 检查 的 运行 时 错误 。ArrayRep 保 证 ， 如 果 array 是 一 
个 TIT 实例， 而 i 是 非 负 整数 晶 小 于 array->length， 那 么 


array->array + i*array->size 
是 元 素 i 的 地 址 。 


ArrayRep 还 导出 了 ArayRep_init， 该 函数 初始 化 array 指 回 的 
Array_T 结 构 实例 的 各 字段 ， 将 其 分 别 设置 为 参数 length、size 和 ary 的 
值 。 提 供 该 男 数 后 ， 客 户 程 序 可 以 初始 化 Array_T 实 例 ， 将 其 舱 入 到 其 
他 结构 中 。 如 果 array 是 NULEL ， 或 size 不 是 正 值 ， 或 length 为 正 值 且 ary 
为 NULL ， 或 length 为 零 且 ary 不 是 NULL ， 均 会 造成 已 检查 的 运行 时 错 


误 本 。 用 调用 ArrayRep_init 之 外 的 手段 初始 化 T 结 构 ， 则 是 未 检查 的 


运行 时 错误。 


10.2 ”实现 


我 们 用 一 个 实现 导出 Array 和 ArrayRep 两 个 接口 : 
(array.c 
= 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "array.h" 


#include "arrayrep.h" 


#include "mem.h" 
#define T Array_T 
(functions 


120) 


Array_new 为 一 个 描述 符 及 数组 本 身 〈 如 果 length 为 正 值 ) 分 配 空 
间 ， 并 调用 ArrayRep_init 初 始 化 描述 符 的 各 字段 : 


(functions 
120) = 
T Array_new(int length, int size) { 


T array; 


NEW(array); 


if (length > 0) 
ArrayRep_init(array, length, size, 
CALLOC(length, size)); 
else 
ArrayRep_init(array, length, size, NULL); 


return array; 


ArrayRep_initze 7) 4a (iam mT WI FBO WN AOE, ARETA 
分 配 摘 述 符 的 客户 程序 必须 调用 ArrayRep_init 来 初始 化 描述 符 。 


(Functions 


120) += 
void ArrayRep_init(T array, int length, int size, 
void *ary) { 
assert(array); 
assert(ary && length>0 || length==0 && ary==NULL); 
assert(size > 0); 
array->length = length; 
array->size = size; 
if (length > 0) 
array->array = ary; 
else 


array->array = NULL; 


调用 ArrayRep_init 来 初始 化 一 个 IT 结构 实例 ， 有 助 于 减少 耦合 : 这 些 调 
用 清楚 地 标识 出 了 自行 分 配 描述 符 的 那些 客户 程序 (因而 依赖 于 数组 
的 表示 ) 。 只 要 ArrayRep_init 不 改变 ， 那 么 辐 描 述 符 添加 字段 不 会 影 
响 这 些 客户 程序 。 例 如 ， 如 果 癌 Tf 结构 添 加 一 个 用 于 标识 序列 号 的 字 
段 ， 且 该 字段 由 ArrayRep_init 目 动 初始 化 ， 那 么 就 会 发 生 上 述 场 景 。 


Array_free 释 放 数组 本 身 和 T 结 构 实例 ， 并 将 其 参数 清 零 四 


(functions 


120) += 

void Array_free(T *array) { 
assert(array && *array); 
FREE((*array)->array); 
FREE(*array); 

} 


Array_free 无 需 检查 (*array)->array 是 否 为 NULL ， 因 为 FREE 可 以 处 理 
NULL 指 针 。 


Array_get 从 Array_T 实 例 获 取 数 组 元 素 ，Array_put| 可 Array_T 实 例 
存储 数组 元 素 : 


(functions 
120) += 


void *Array_get(T array, int i) { 


assert(array); 


assert(i >= 0 && i < array->length); 


return array->array + i*array->size; 


void *Array_put(T array, int i, void *elem) { 


assert(array); 


assert(i >= 0 && i < array->length); 


assert(elem); 
memcpy(array->array + i*array->size, elem, 
array->size); 


return elem; 


请 注意 ，Array_put 将 返回 其 第 
址 。 


三 个 参数 ， 而 不 是 目标 数组 元 素 的 地 


Array_length 和 Array_size 分 别 返 回 描述 符 中 名 称 类 似 的 字段 : 


(Functions 


120) += 


int Array_length(T array) { 
assert(array); 


return array->length; 


int Array_size(T array) { 


assert(array); 


return array->size; 


ArrayRep 的 客户 程序 可 以 从 描述 符 直 接 访 问 这 些 字段 。 


Array_resize 调 用 Mem 接 口 的 RESIZE 来 改变 数组 中 的 元 素 的 数 
日 ， 并 相应 地 改变 数组 的 length 字 段 。 


(functions 


120) += 
void Array_resize(T array, int length) { 
assert(array); 
assert(length >= 0); 
if (length == 0) 
FREE(array->array); 
else if (array->length == 0) 
array->array = ALLOC(length*array->size); 
else 
RESIZE(array->array, length*array->size); 


array->length = length; 


不 同 于 Mem 接 口 的 RESIZE， 在 这 里 ， 新 的 长 度 为 0 是 合法 的 ， 而 
在 这 种 情况 下 数组 将 被 释放 ， 此 后 描述 符 实际 上 描述 了 一 个 空 的 动态 
数组 。 


Array_copy 与 Array_resize 非 党 相似 ， 只 是 它 会 复制 array 的 描述 符 
以 及 数组 的 部 分 或 全 部 内 容 : 


(functions 


120) += 
T Array_copy(T array, int length) { 
T copy; 


assert(array); 
assert(length >= 0); 
copy = Array_new(length, array->size); 
if (copy->length >= array->length 
&& array->length > 0) 
memcpy(copy->array, array->array, 
array->length*array->size); 
else if (array->length > copy->length 
&& copy->length > 0) 
memcpy(copy->array, array->array, 
copy->Llength*array->size); 


return copy; 


10.3 扩展 阅读 


一 些 语 言 文 持 动态 数组 的 变 体 。 例 如 ，Modula-3[Nelson，1991] 容 
许 在 执行 期 间 创 建 具 有 任意 边界 的 数组 ， 但 这 种 数组 不 能 扩展 或 收 
缩 。Icon[Griswold and Griswold，1990] 中 的 列表 与 动态 数组 类 似 ， 可 
以 在 两 端 添 加 或 删除 元 素 ， 从 而 进行 扩展 或 收缩 ， 这 与 下 一 章 描述 的 
序列 非常 相似 。Icon 还 支持 从 列表 获取 子 列表 ， 或 将 子 列表 替换 为 一 
个 不 同 长 度 的 列表 。 


10.4 习题 


10.1 设计 并 实现 一 个 ADT， 提 供 指 针 的 动态 数组 。 它 应 该 通过 
函数 提供 对 这 些 数组 元 素 的 “安全 ”访问 ， 这 些 函 数 本 质 上 与 Table 接 口 
提供 的 函数 类 似 。 在 你 的 实现 中 使 用 Array 或 Array_Rep。 


10.2 ”为 动态 矩阵 (BU AERA) 设计 一 个 ADT， 并 使 用 Array 实 
现 它 。 你 可 以 将 设计 推广 到 N 维 数组 吗 ? 


10.3 HRN 动态 数组 〈 其 中 大 部 分 元 素 是 零 的 数组 ) 设计 并 实 
现 一 个 ADT 。 你 的 设计 应 该 接受 一 个 特定 于 数组 的 值 作 为 零 ， 实 现 应 
该 只 存储 那些 不 等 于 零 的 元 素 。 


10.4 将 下 述 函 数 


extern void Array_reshape(T array, int length, 


int size); 


添加 到 Array 接 口 及 其 实现 中 。Array_reshape 会 将 array 中 元 素 的 数目 和 
每 个 元 素 的 大 小 分 别 改 为 langth 和 size。 类 似 Array_resize， 重 整 后 的 数 
组 保留 了 原 数 组 的 前 length 个 元 素 ， 如 果 length 超 过 原来 的 长 度 ， 超 出 


的 那 部 分 元 素 将 设置 为 0。array 中 的 第 i 个 元 素 ， 将 变 为 重 整 后 的 数组 
中 的 第 i 个 元 素 。 如 果 size 小 于 原本 每 个 元 素 的 大 小 ， 则 截断 原来 的 各 
个 元 素 ， 如 果 size 大 于 原来 各 个 元 素 的 大 小 ， 超 出 的 那 部 分 字 节 设置 
为 0。 


[1] 原文 对 length 和 ary 的 限定 有 点 错误 ， 根 据 下 文 的 代码 改正 。 
一 一 译 者 注 


[2] 指 将 *array 清 零 ， 由 FREE 宏 目 动 完成 。 一 一 译 者 注 


第 11 间 ”序列 


序列 包含 N 个 值 ， 分 别 关 联 到 整数 索引 0 到 N-1 ( 当 N 为 正 值 
时 ) 。 空 序列 不 包含 任何 值 。 类 似 数组 ， 序 列 中 的 值 可 通过 索引 访 
问 ， 还 可 以 从 序列 的 两 端 添 加 或 删除 值 。 序 列 可 根据 需要 目 动 扩 展 ， 
以 容纳 其 内 容 。 其 中 的 值 都 是 指针 。 


序列 是 本 书 中 最 有 用 的 ADT 之 一 。 尽 管 序列 的 规格 相对 简单 ， 但 
可 以 用 作 数 组 、 链 表 、 栈 、 队 列 和 双 端 队列 ， 实 现 这 些 数据 结构 的 
ADT 所 需 的 设施 通常 都 包含 在 序列 中 。 序 列 可 以 看 作 前 一 章 描述 的 动 
态 数组 的 更 抽象 版 本 。 序 列 将 短 记 信息 和 调整 大 小 的 相关 细节 隐藏 到 
其 实现 中 。 


11.1 #0 


序列 是 Seq 接 口中 定义 的 不 透明 指针 类 型 的 实例 : 


(seqg.h 
= 
#ifndef SEQ INCLUDED 


#define SEQ INCLUDED 


#define T Seq_T 


typedef struct T *T; 
(exported functions 
123) 


#undef T 


#endif 


向 该 接口 中 任何 例 程 传递 的 T 值 为 NULL， 都 是 已 检查 的 运行 时 错误 。 


序列 通过 下 列 函 数 创建 : 


(exported functions 


123) = 
extern T Seq_new(int hint); 


extern T Seq_seq(void *x, ...); 


Seq_new 创 建 并 返回 一 个 空 序列 。hint 是 对 新 序列 将 包含 值 的 最 大 数目 
的 估计 。 如 琳 该 数值 是 未 知 的 ， 可 用 0 作为 hint， 以 创建 一 个 较 小 的 序 
列 。 无 论 hint 值 如 何 ， 序 列 都 会 根据 需要 扩展 以 容纳 其 内 容 。 传 递 负 
的 hint 值 ， 是 一 个 已 检查 的 运行 时 错误 。 


Seq_seq 创 建 并 返回 一 个 序列 ， 用 函数 的 非 NULL 指 针 参 数 来 初始 
化 序列 中 的 值 。 参 数列 表 结 束 于 第 一 个 NULL 指 针 参 数 。 因 而 


Seq_T names; 


names = Seq_seq("C", "ML", "C++", "Icon", "AWK", NULL); 


将 创建 一 个 包含 五 个 值 的 序列 ， 并 将 其 赋值 给 names。 参 数列 表 中 的 
值 将 关联 到 索引 0~4。Seq_seq 的 参数 列表 的 可 变 部 分 传递 的 指针 假定 
为 void 指针 ， 因 此 在 传递 char 或 void 以 外 的 指针 时 ， 程 序 员 必须 提供 转 
换 ， 参 见 7.1T。Seq_new 和 Seq_seq 可 能 引发 Mem_Failed 寞 销 。 


(exported functions 


123) += 


extern void Seq_free(T *seq); 


释放 序列 *seq 并 将 *seq 清 零 。 如 果 seq 或 *sed 是 NULL 指 针 ， 则 造成 已 检 
查 的 运行 时 错误 。 


(exported functions 


123) += 


extern int Seq_length(T seq); 
该 函数 返回 序列 seq 中 的 值 的 数目 。 


N 值 序列 中 的 各 个 值 ， 分 别 关 联 到 索引 0 到 N-1。 这 些 值 通过 下 列 
函数 访问 : 


(exported functions 


123) += 


extern void *Seq_get(T seq, int i); 


extern void *Seq_put(T seg, int i, void *x); 
Seq_get 返 回 seq 中 的 第 i 个 值 。Seq_put 将 第 i 个 值 改 为 x， 并 返回 先前 的 


值 。i 等 于 或 大 于 N 将 造成 已 检查 的 运行 时 错误 。Seq_get 和 Seq_put 可 以 
在 常数 时 间 内 访问 第 i 个 值 。 


向 序列 两 端 添 加 值 ， 即 可 扩展 序列 : 


(exported functions 


123) += 
extern void *Seq_addlo(T seq, void *x); 


extern void *Seq_addhi(T seq, void *x); 


Seq_addlo 将 x 添加 a 到 seq 的 低 端 并 返回 x。 添 加 一 个 值 到 序列 的 开始 ， 
会 将 所 有 现存 值 的 索引 都 加 1， 并 将 序列 的 长 度 加 1。Seq_addhi 将 x 湛 
加 到 seq 的 高 端 并 返回 x。 添 加 一 个 值 到 序列 的 末尾 ， 会 将 序列 的 长 度 
加 1。Seq_addlo 和 Seq_addhiFJ 能 引发 Mem_Failed 异 常 。 


类 似 地 ， 通 过 从 序列 两 端 删除 值 可 以 收缩 序列 ; 
(exported functions 
123) += 


extern void *Seq_remlo(T seq); 


extern void *Seq_remhi(T seq); 


Sedq_remlo 删 除 并 返回 seq 低 端的 值 。 在 序列 的 起 始 处 删除 值 ， 会 将 余 
下 所 有 值 的 索引 都 减 1， 并 将 序列 的 长 度 减 1。 Sedq_remhi 删 除 并 返回 
seq 高 端的 值 。 在 序列 末端 删除 值 ， 会 将 序列 的 长 度 减 1。 将 空 序 列传 


递 给 Seq_remlo 或 Seq_remhi， 是 已 检查 的 运行 时 错误 ° 


11.2 


实现 


本 半 开 头 提出 ， 序 列 是 动态 数组 的 高 级 抽象 。 因 而 序列 的 表示 包 
含 了 一 个 动态 数组 ， 这 不 是 指 癌 Array_T 的 一 个 指针 ， 而 是 Array_T 结 
构 本 号 的 一 个 实例 ， 其 实现 同时 导入 了 Array 和 ArrayRep 接 口 : 


(seq.c 


Y= 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


#include 


<stdlib.h> 
<stdarg.h> 
<string.h> 
"assert.h" 
"seq.h" 
"array.h" 
"arrayrep.h" 


"mem. h" 


#define T Seq_T 


struct T { 


struct Array_T array; 


int length; 


int head; 


(static functions 


128) 


(functions 


126) 


length 字 段 包含 了 序列 中 的 值 的 数目 ， 而 array 字 段 保 存 了 存储 这 些 值 
的 数组 。 该 数组 总 是 至 少 包 含 length 个 元 素 ， 当 length 小 于 array.length 
时 ， 其 中 一 些 元 素 是 不 使 用 的 。 该 数组 用 作 一 个 环形 缓冲 区 ， 以 容纳 
序列 中 的 值 。 序 列 中 索引 为 0 的 值 保存 在 数组 中 索引 为 head 的 元 陛 处 ， 
序列 中 索引 号 连续 的 值 ， 也 保存 在 数组 的 “连续 ?元素 中 (注意 : “ 连 
续 ” 是 同 余 意义 上 的 ) 。 即 如 果 序 列 中 第 i 个 值 保 存在 数组 元 素 
array.length-1 中 ， 那 么 第 it1 个 值 保存 在 数组 元 素 0 中 。 图 11-1 给 出 了 在 
一 个 16 个 元 素 的 数组 保存 包含 7 个 值 的 序列 的 方法 。 左 侧 的 方 框 是 
Seq_T 及 其 内 骸 的 Array_T， 以 淡色 阴影 标明 。 


length mA 
size E 
array = 
length 
head 


图 11-1 7 个 值 的 序列 (容量 为 16) 


右 侧 的 方 框 是 数组 ， 其 中 的 阴影 标明 了 被 序列 中 的 值 占用 的 元 


如 下 文 详 述 ， 在 序列 开始 处 添加 值 时 ， 和 需要 将 head 减 1， 而 后 对 数 
组 长 度 求 模 ， 在 序列 开始 处 删除 值 时 ， 需 要 将 head 加 1， 而 后 对 数组 长 
度 求 模 。 序 列 总 是 会 包含 一 个 数组 ， 即 使 空 序列 也 是 如 此 。 


创建 新 序列 时 ， 会 分 配 一 个 可 以 容纳 hint 个 指针 的 动态 数组 (如 
果 hint 为 0， 那 么 可 以 容纳 16 个 指针 ) : 


《Functions 
126) = 
T Seq_new(int hint) { 


T seq; 


assert(hint >= 0); 


NEWO(seq); 

if (hint == 0) 
hint = 16; 

ArrayRep_init(&seq->array, hint, sizeof (void *), 
ALLOC(hint*sizeof (void *))); 


return seq; 


使 用 NEW0 将 length 和 head 字 段 初 始 化 为 0。Seq_seq 调 用 Seq_new 创 建 
一 个 空 序列 ， 然 后 对 参数 列表 中 的 参数 逐一 调用 Seq_addhi， 将 其 追加 
到 新 序列 中 : 


(Functions 


126) += 
T Seq_seq(void *x, ...) { 
va_list ap; 


T seq = Seq_new(0); 


va_start(ap, x); 

for ( ; xX; x = va_arg(ap, void *)) 
Seq_addhi(seq, x); 

va_end(ap); 


return seq; 


Seq_seq 使 用 了 处 理 可 变 长 度 参数 列表 的 宏 ， 用 法 与 List_list 非 常 相 
似 ， 请 参见 7.1 节 。 


可 通过 Array_free 释 放 一 个 序列 ， 这 将 释放 数组 及 其 描述 符 : 


(functions 


126) += 

void Seq_free(T *seq) { 
assert(seq && *seq); 
assert((void *)*seq == (void *)&(*seq)->array); 
Array_free((Array_T *)seq); 

} 


对 Array_free 的 调用 之 所 以 能 够 工作 ， 仅 仅 因 为 *seq 指 同 的 地 址 等 于 & 
(*sed)->array， 如 代码 中 的 断言 所 示 。 即 Array_T 结 构 必 须 是 Seq_T 结 构 
中 的 第 一 个 字段 ， 这 样 Seq_new 中 NEW0 返 回 的 指针 既 指 问 一 个 Seq_T 
实例 ， 同 时 也 指向 一 个 Array_T 实 例 。 


Seq_length 只 是 返回 序列 的 length 字 上 段 : 
(functions 
126) += 
int Seq_length(T seq) { 


assert(seq); 


return seq->length; 


序列 中 的 第 i 个 值 ， 所 对 应 数组 元 素 的 索引 值 为 (head + i) mod 
array.length。 通 过 类 型 转换 ， 使 之 可 以 直接 索引 数组 : 


(seq[i] 127) = 
((void **)seq->array.array) [ 


(seq->head + 1)%seq->array.length] 


Seq_get 只 是 返回 上 述 代码 给 出 的 这 个 数组 元 素 ，S$Seq_put 将 其 设置 为 


X: 


(functions 


126) += 

void *Seq_get(T seq, int i) { 
assert(seq); 
assert(i >= 0 && i < seq->length); 


return (seq[i] 127) ; 


void *Seq_put(T seq, int i, void *x) { 


void *prev; 


assert(seq); 

assert(i >= 0 && i < seq->length); 
prev = (seq[i] 127) ; 

(seq[i] 127) = x; 


return prev; 


Sedq_remlo 和 Seq_remhi 从 一 个 序列 中 删除 值 。 在 这 两 个 函数 中 ， 
Sedq_remhi 比 较 简 单 ， 因 为 它 只 需要 将 length 字 段 减 1， 并 返回 由 length 


的 痢 值 索引 的 序列 值 即 可 : 


(functions 


126) += 
void *Seq_remhi(T seq) { 


int 1; 


assert(seq); 
assert(seq->length > 0); 
1 = --seq->length; 
return (seq[i] 127) ; 

} 


Seq_remlo 稍 微 复 杂 一 些 ， 因 为 它 必 须 返 回 由 head 索 引 的 值 ( 即 序列 中 
索引 值 0 对 应 的 值 ) ， 接 下 来 需要 将 head 加 1 然后 对 数组 长 度 取 模 ， 并 
将 length 减 1: 


(functions 


126) += 
void *Seq_remlo(T seq) { 
int 1 = 0; 


void *x; 


assert(seq); 
assert(seq->length > 0); 


x = (seq[i] 127) ; 


seq->head = (seq->head + 1)%seq->array.length; 
--seq->length; 


return x; 


Seq_addlo 和 Seq_addhi 回 序列 添加 值 ， 因 而 必须 处 理 数组 容量 用 尽 
的 可 能 性 ， 当 length 等 于 array.length 时 ， 束 会 发 生 这 种 情况 。 在 发 生 这 
种 情况 时 ， 这 两 个 函数 都 调用 expand 来 扩大 数组 ，expand 进 而 又 调用 
了 Array_resize 来 完成 其 工作 。 在 这 两 个 函数 中 ，Seq_addhi 仍 然 是 比较 
简单 的 那个 ， 因 为 在 检查 是 否 需要 扩展 数组 后 ， 该 函数 只 需 将 新 值 保 
存在 由 索引 值 length 指 定 的 数组 元 素 处 ， 并 将 length 加 1 即 可 : 


(functions 


126) += 
void *Seq_addhi(T seq, void *x) { 


int 1; 


assert(seq); 
if (seq->length == seq->array.length) 
expand(seq); 
i = seq->length++; 
return (seg[i] 127) = x; 
} 


Seq_addlo 也 会 检查 是 否 需 要 扩展 数组 ， 但 接 下 来 它 需 要 将 head 减 1 后 
对 数组 长 度 取 模 ， 并 将 x 存储 到 由 head 的 新 值 索引 的 数组 元 素 人 处， 这 就 
征 序 列 中 索引 值 0 对 应 的 值 : 


(Functions 


126) += 
void *Seq_addlo(T seq, void *x) { 
int 1 = 0; 
assert(seq); 
if (seq->length == seq->array.length) 
expand(seq); 
if (--seq->head < 0) 


seq->head = seq->array.length - 1; 
seq->length++; 


return (seq[i] 127) = x; 


HIN, Seq_addloty Ay Limit FIRS, 2XTseq->head ii FFA: 


seq->head = Arith_mod(seq->head - 1, seq->array.length); 


expands} 32 T  Array_resize HY Vil FA, i065 IN Ae PB ZA IK 
度 : 


(static functions 


128) = 
static void expand(T seq) { 


int n = seq->array.length; 


Array_resize(&seq->array, 2*n); 


if (seq->head > 0) 


(slide tail down 


129) 
} 


该 代码 暗示 ，expand 还 必须 处 理 将 数组 用 作 环 形 缓冲 区 的 情形 。 除 非 
head 伴 巧 是 0， 否 则 ， 原 数组 后 半 段 的 那些 元 素 (从 head 之 后 ) 必须 移 
动 到 扩展 之 后 的 数组 末端 ， 以 便 把 中 间 的 区 域 腾 出 来 ， 如 图 11-2 所 
示 ， 同 时 需要 相应 地 调整 head: 


(slide tail down 


129) = 

{ 
void **old = &((void **)seq->array.array)[seq->head]; 
memcpy(old+n, old, (n - seq->head)*sizeof (void *)); 


seq->head += n; 


“a 
old+n 


图 11-2 ”扩展 序列 


11.3 扩展 阅读 


序列 与 Icon[Griswold and Griswold, ，1990] 中 的 列表 几乎 是 相同 
的 ， 但 相关 操作 的 名 称 则 取 自 DEC 实现 的 Modula-3[Horning 等 人 ， 
1993] 附 带 的 库 中 的 Sequence 接 口 。 本 章 中 描述 的 实现 也 与 DEC 的 实现 
类 似 。 习 题 11.1 探 讨 了 Icon 的 实现 。 


11.4 习题 


11.1 Icon 用 块 的 双 链 表 实 现 了 列表 (序列 的 Icon 版 本 ) ， 每 个 块 
可 以 容纳 (假定 ) M 个 值 。 这 种 表示 避免 了 使 用 Array_resize， 因 为 新 
的 块 可 以 在 调用 Seq_addlo 和 Seq_addhi 时 根据 需要 添加 到 列表 的 两 端 。 
这 种 表示 的 不 利之 处 在 于 ， 必 须 遇 历 各 个 块 才能 访问 第 i 个 什 ， 这 花费 
的 时 间 正 比 于 XM。 使 用 这 种 表示 构建 Seq 接 口 的 一 个 新 实现 ， 并 开发 


一 坚 测试 程序 来 测量 其 性 能 。 假 定 访问 索引 值 对 应 的 值 时 ， 通 单 都 会 
伴随 着 对 索引 值 i - TEA + 1 对 应 的 值 的 访问 ， 你 能 修改 实现 ， 使 得 这 种 
情况 能 够 在 常数 时 间 内 执行 完成 吗 ? 


11.2 ”为 Seq 接 口 设 计 一 个 实现 ， 不 要 使 用 Array_resize。 例 如 ， 在 
原来 的 N 元 素数 组 用 尽 时 ， 可 以 将 其 转换 为 一 个 指针 数组 ， 每 个 元 素 
都 是 指向 男 一 个 数组 (假定 可 容纳 2N 个 元 素 ) 的 指针 ， 这 样 ， 转 换 后 
的 序列 可 容纳 2N? 个 值 。 如 果 N 为 1024， 转 换 后 的 序列 可 容纳 超过 两 
百 万 个 元 素 ， 每 个 元 素 都 可 以 在 常数 时 间 内 访问 。 这 种 * 边 和 癌 量 ”表示 
中 ， 每 个 2N 元 素数 组 都 可 以 惰性 分 配 ， 即 仅 当 有 值 存 储 到 其 中 时 才 分 
配 。 


11.3 ”假定 禁用 Seq_addlo 和 Seq_remlo， 设 计 一 个 渐 增 式 分 配 空间 
的 实现 ， 但 序列 中 的 任何 元 素 都 必须 能 够 在 对 数 时 间 内 访问 。 提 示 : 
跳 表 (skip list， 参 见 [Pugh，1990]) ° 


11.4 ”序列 只 扩展 ， 但 从 不 收缩 。 修 改 Seq_remlo 和 Seq_remhi 的 实 
现 ， 使 之 在 数组 有 超过 半数 空间 空 内 时， 对 序列 进行 收缩 ， 即 当 segq- 
>length 变 为 小 于 seq->arraylength/2 时 。 在 什么 情况 下 ， 该 修改 是 一 个 
坏 主意 ? 提示 : WR 〈 指 序列 反复 扩展 /收缩 ) 。 


11.5 ”重新 实现 xref， 使 用 序列 而 不 是 集合 来 容纳 行 写 。 由 于 文件 
有 古 顺序 读 取 的 ， 不 需要 对 行 号 排序 ， 因 为 它们 将 按 弟 增 次 序 出 现在 序 
Ml ae 


11.6 重 写 Seq_free， 使 其 无 需 再 用 现在 的 断言 。 请 注意 ， 不 能 使 
用 Array_free。 


第 12 章 Ff 


环 与 序列 非常 相似 ， 它 包含 N 个 值 ， 分 别 关 联 到 整数 索引 0 到 N-1 
( 当 N 为 正 值 时 ) 。 空 的 环 不 包含 任何 值 。 其 中 的 值 都 是 指针 。 与 序 
列 中 的 值 类 似 ， 环 中 的 值 也 可 以 用 索引 访问 。 


不 同 于 序列 的 是 ， 值 可 以 添加 到 环 中 任意 位 置 ， 而 环 中 的 任何 值 
都 可 以 被 删除 。 此 外 ， 环 中 的 值 还 可 以 重新 编号 :将 环 左 “ 旋 ”， 会 将 
每 个 值 的 索引 减 1 并 对 环 的 长 度 取 模 ， 将 环 右 施 ， 则 将 各 个 索引 值 加 1 
并 对 环 的 长 度 取 模 。 昌 然 在 环 中 可 以 在 任意 位 置 添 加 /删除 值 ， 但 这 种 
灵活 性 的 代价 是 ， 访 问 第 个 值 不 保证 在 第 数 时 间 内 完成 。 


12.1 接口 


顾名思义 ， 环 是 双 链 表 的 抽象 ， 但 Ring ADT 只 披露 了 一 点 点 信 
思 ， 即 环 是 一 个 不 透明 指针 类 型 的 实例 : 


(ring.h 
= 
#ifndef RING_INCLUDED 


#define RING_INCLUDED 


#define T Ring_T 


typedef struct T *T; 
(exported functions 


131) 
#undef T 


#endif 
向 该 接口 中 任何 例 程 传递 的 T 值 为 NULL， 都 是 已 检查 的 运行 时 错误 。 
环 通过 下 列 函 数 创建 ， 与 Seq 接 口中 类 似 的 函数 相对 应 : 
(exported functions 
131) = 


extern T Ring_new (void); 


extern T Ring_ring(void *x, ...); 


Ring_new 创 建 并 返回 一 个 空 环 。Ring_ring 创 建 并 返回 一 个 环 ， 用 画 数 
的 非 NULL 指 针 参 数 来 初始 化 环 中 的 值 。 参 数列 表 结 束 于 第 一 个 NULL 
指针 参数 。 因 而 


Ring_T names; 


names = Ring_ring("Lists", "Tables", "Sets", "Sequences", 


"Rings", NULL); 


会 用 给 出 的 五 个 值 创建 一 个 环 ， 并 将 其 赋值 给 names。 参 数列 表 中 的 
值 将 关联 到 索引 0~4。Ring_ring 的 参数 列表 的 可 变 部 分 传递 的 指针 假 


定 为 void 指针 ， 因 此 在 传递 char 或 void 以 外 的 指针 时 ， 程 序 员 必 须 提 供 
转换 ， 参 见 7.1 广 。Ring_new 和 Ring_ring 可 能 引发 Mem_Failed 异 常 。 


(exported functions 
131) += 


extern void Ring_free (T *ring); 


extern int Ring_length(T ring); 


Ring_free 释 放 *ring 指 定 的 环 并 将 *ring 清 去。 如 有 果 ring 或 *ring 是 NULL 
和 ， 则 为 已 检查 的 运行 时 错误 。Ring_length 返 回 ring 中 值 的 数目 。 


在 长 度 为 N 的 环 中 ， 各 个 值 分 别 天 联 到 整数 索引 值 0 到 N-1。 这些 
值 通过 下 列 函 数 访问 : 


(exported functions 
131) += 


extern void *Ring_get(T ring, int i); 


extern void *Ring_put(T ring, int i, void *x); 


Ring_get 返 回 ring 中 的 第 i 个 值 。Ring_put 将 ring 中 第 i 个 值 改 为 x， 并 返 
回 原 值 。i 等 于 或 大 于 N 将 造成 已 检查 的 运行 时 错误 。 


通过 下 列 画 数 ， 可 以 同 环 中 任何 位 置 添加 值 : 


(exported functions 


131) += 


extern void *Ring_add(T ring, int pos, void *x); 


Ring_add 将 x 添加 到 ring 中 的 pos 位 置 处 ， 并 返回 x。 在 一 个 N 值 环 中 ， 
位 置 指定 了 值 之 间 的 地 点 ， 如 图 12-1 所 示 ， 其 中 给 出 了 一 个 包含 5 个 
值 (整数 0~4) 的 环 。 


-5 -4 -3 -2 -1 0 
图 12-1 包含 5 个 值 的 环 


中 间 一 行 数 字 是 索引 ， 上 面 一 行 是 正 位 置 ， 下 面 一 行 是 非 正 位 
置 。 非 正 位 置 指定 了 从 环 末尾 算 起 的 各 个 地 点 ， 不 需要 了 解 环 的 长 
度 。 对 空 环 来 说 ,位置 0O 和 1 也 是 有 效 的 。Ring_add 可 以 接受 两 种 形式 
的 位 置 。 指 定 不 存在 的 位 置 (包括 正 位 置 大 于 环 长 度 加 1， 或 负 位 置 绝 
对 值 大 于 环 的 长 度 ) ， 是 已 检查 的 运行 时 错误 。 


添加 一 个 新 值 ， 会 将 其 右 侧 所 有 值 的 索引 加 1， 并 将 环 的 长 度 加 
1°。Ring_add 可 能 引发 Mem_Failed 异 常 。 


下 列 各 函数 


(exported functions 


131) += 
extern void *Ring_addlo(T ring, void *x); 


extern void *Ring_addhi(T ring, void *x); 


等 效 于 Seq 接 口中 名 称 相 似 的 对 应 函数 。Ring addlo 等 效 于 
Ring_add(ring, 1, x), 而 Ring_addhi  % F Ring_add(ring, 0, x) ° 
Ring_addlo 和 Ring_addhi 可 能 引发 Mem_Failed 异 常 。 


下 列 函 数 


(exported functions 


131) += 


extern void *Ring_remove(T ring, int 1); 


删除 并 返回 ring 中 的 第 i 个 值 。 删 除 值 ， 会 将 其 右 侧 剩 下 的 值 的 索引 都 
减 1， 并 将 环 的 长 度 减 1。i 大 于 或 等 于 ring 的 长 度 ， 十 已 检查 的 运行 时 


HR 


与 Seq 接 口中 名 称 相 似 的 函数 类 似 ， 下 列 各 函数 
(exported functions 
131) += 


extern void *Ring_remlo(T ring); 


extern void *Ring_remhi(T ring); 


删除 并 返回 位 于 rng 的 低 / 高 端的 值 。Ringremlo 等 歼 于 
Ring remove(ring, 0) , 而 Ring remhi 等 效 于 Ring remove(ring， 


Ring_length(ring)-1)。 癌 Ring_remlo 或 Ring_remhi 传 递 空 环 ， 是 已 检查 
的 运行 时 错误 。 


“ 环 ” 这 个 名 称 来 目下 列 函 数 


(exported functions 


131) += 


extern void Ring_rotate(T ring, int n); 


FARA he aa he ring, HEPERI ° WAM IEE, ring 
向 右 旋转 n 个 值 〈 顺 时 针 ) ， 各 个 值 的 索引 加 n 然 后 对 ring 的 长 度 取 
模 。 将 一 个 包含 字符 串 A 到 H 的 八 值 环 ， 同 右 旋转 3 个 位 置 ， 如 图 12-2 
所 示 ， 篆 头 指向 第 一 个 元 素 。 


(AD) HERD 
oe) Wy 


图 12-2 ”向 右 旋转 3 个 位 置 的 八 值 环 


如 果 n 为 负 值 ，ring 向 左 转 旋转 n 个 值 ( 逆 时 针 ) ， 各 个 值 的 索引 
减 n 然 后 对 环 的 长 度 取 模 。 如 采 n 模 环 的 长 度 得 909， 那么 Ring_rotate 没 有 
效果 。n 的 绝对 值 大 于 ring 的 长 度 ， 古 已 检查 的 运行 时 错误 。 


12.2 ”实现 


本 实现 将 环 表示 为 一 个 包含 两 个 字段 的 结构 


(ring.c 


Y= 
#include <stdlib.h> 
#include <stdarg.h> 
#include <string.h> 
#include "assert.h" 
#include "ring.h" 


#include "mem.h" 


#define T Ring_T 


struct T { 
struct node { 
struct node *llink, *rlink; 
void *value; 
} *head; 
int length; 
}; 


(functions 


134) 


head 字 段 指向 由 node 结 构 构 成 的 一 个 双 链 表 ，node 结 构 中 的 value 字 段 
保存 了 环 中 的 值 。head 指 回 关 联 到 索引 0 的 什 ， 后 续 值 保存 在 通过 rlink 
字段 链接 的 各 结 点 中 ， 各 结 点 的 llink 字 段 指 向 其 前 趋 。 图 12-3 给 出 了 
一 个 六 值 环 的 结构 。 虚 线 从 llink 字 段 发 出 ， 按 逆 时 针 方 同 环 行 ， 实 线 
从 rlink 字 段 发 出 ， 按 顺 时 针 方向 环行 。 


图 12-3 ”包含 6 个 元 素 的 环 

空 环 的 length 字 段 为 0，head 字 段 为 NULL， 即 为 Ring_new 的 返回 值 : 
(Functions 

134) = 


T Ring_new(void) { 


T ring; 


NEWO(ring); 


ring->head = NULL; 


return ring; 


} 


Ring_ring 百 先 创 建 一 个 空 环 ， 然 后 调用 Ring_addhi 将 Ring_ring 的 各 个 
指针 参数 添加 到 环 的 末尾 ， 直 至 遇 到 第 一 个 NULL 指 针 : 


(Functions 


134) += 
T Ring_ring(void *x, ...) { 
va_list ap; 


T ring = Ring_new(); 


va_start(ap, x); 

for ( ; x; x = va_arg(ap, void *)) 
Ring_addhi(ring, x); 

va_end(ap); 


return ring; 


释放 环 时 ， 前 先 释 放 各 个 node 结 构 实 例 ， 而 后 释放 Ring_T 结 构 实 
例 〈 即 环 的 首部 ) 。 释 放 结 点 的 次 序 并 不 重要 ， 因 此 Ring_free 只 是 按 
照 nink 指 针 的 方 问 释放 各 个 结 点 。 


(Functions 


134) += 


void Ring_free(T *ring) { 


struct node *p, *q; 


assert(ring && *ring); 
if ((p = (*ring)->head) != NULL) { 
int n = (*ring)->lLength; 
for ( ; n-- > 0; p=q) { 
q = p->rlink; 
FREE(p); 


} 
FREE(*ring); 


下 列 函 数 


(Functions 


134) += 

int Ring_length(T ring) { 
assert(ring); 
return ring->length; 


} 
返回 环 中 的 值 的 数目 。 


Ring_get 和 Ring_put 都 必须 找到 环 中 的 第 i 个 值 。 这 等 效 于 遍历 链 
表 到 第 i 个 node 结 构 实例 ， 由 下 列 代码 块 完 成 。 


(q = ith node 


136) = 
{ 
int n; 
q = ring->head; 
if (i <= ring->length/2) 
for (n = i; n-- > 0; ) 
q = q->rlink; 
else 


for (n = ring->length - i; n-- > 0; ) 
q = q->llink; 


} 


该 代码 循 最 短路 径 找到 第 i 个 结 点 : 如 果 i 不 大 于 环 长 度 的 一 半 ， 则 代 
码 经 由 第 一 个 for 循 环 ， 通 过 nlink 指 针 按 顺 时 针 方 问 找 到 想 要 的 结 点 。 
人 否则， 代码 经 由 第 二 个 for 循 环 ， 通 过 llink 指 针 按 逆 时 针 方 癌 找到 目标 


结 点 。 例 如 ， 在 图 12-3 中 ， 值 0 到 3 可 沿 顺 时 针 方 癌 找到 ， 值 4 和 5 则 需 
沿 逆 时 针 方 癌 找到。 


给 出 该 代码 块 之 后 ，Ring_get 和 Ring_put 两 个 访问 函数 很 容易 实 
现 : 
(functions 
134) += 


void *Ring_get(T ring, int i) { 


struct node *q; 


assert(ring); 
assert(i >= 0 && 1 < ring->length); 


(q ~ ith node 


136) 


return q->value; 


void *Ring_put(T ring, int i, void *x) { 
struct node *q; 


void *prev; 


assert(ring); 
assert(i >= 0 && i < ring->length); 


(q ~ ith node 


136) 
prev = q->value; 
q->value = x; 


return prev; 


癌 环 添加 值 的 函数 必须 分 配 一 个 结 点 ， 初 始 化 它 ， 并 将 其 插入 到 
双 链 表 中 正确 的 位 置 。 这 些 画 数 还 必须 处 理 向 空 环 添加 结 点 的 情形 。 
Ring_addhi 是 这 些 函 数 中 最 简单 的 一 个 : 它 将 一 个 新 的 结 点 添加 到 


head 指 癌 的 结 点 左 侧 ， 如 图 12-4 所 示 。 阴 影 标 记 出 了 新 结 点 ， 右 侧 图 
中 的 加 粗 线 表明 了 需要 改变 的 链接 。 以 下 是 代码 : 


(functions 


134) += 
void *Ring_addhi(T ring, void *x) { 


struct node *p, *q; 


assert(ring); 
NEW(p); 
if ((q = ring->head) != NULL) 


(insert 
p to the left of 
q 137) 
else 
(make 
p ring's only value 
137) 


ring->Length++; 


return p->value = x; 


向 空 环 添加 一 个 值 很 容易 : 将 ring->head 指 向 新 的 结 点 ， 该 结 点 的 链接 
指向 结 点 本 里 。 


(make 
p ring's only value 


137) = 


ring->head = p->llink = p->rlink = p; 


如 图 12-4 所 示 ，Ring_addhi 将 q 指 向 环 中 第 一 个 结 点 ， 并 将 新 结 点 插入 
到 其 左 侧 。 这 个 插入 操作 涉及 初始 化 新 结 点 的 链接 ， 以 及 重 定 癌 gq 的 
llink 和 gq 的 前 趋 结 点 的 flink: 


(insert 
p to the left of 


q 137) = 
{ 
p->llink = q->llink; 
q->llink->rlink = p; 
p->rlink = q; 
q->llink = p; 


head p head 
| 


图 12-4 ”在 head 的 左 侧 插入 一 个 新 结 点 


图 12-5 的 系列 图 中 第 二 到 第 五 幅 图 ， 分 别 说 明了 这 四 个 语句 各 目的 效 
果 。 在 每 一 步 ， 加 重 的 弧 线 表示 新 的 链接 。 当 gq 指向 双 链 表 中 唯一 的 结 
扩 时 ， 重 新 绘制 此 系列 图 是 很 有 神 益 的 ， 留 给 读者 完成 。 


Ring_addlo 儿 乎 同样 容易 ， 但 新 添加 的 结 点 会 变 为 环 中 第 一 个 结 
点 。 要 人 完成 这 个 转换 ， 可 以 首先 调用 Ring_addhi， 然 后 将 环 右 旋 一 个 
位 置 (即将 head 设 置 为 其 前 趋 ) : 


(functions 


134) += 

void *Ring_addlo(T ring, void *x) { 
assert(ring); 
Ring_addhi(ring, x); 
ring->head = ring->head->llink; 


return x; 


Ring_add 是 向 环 添加 值 的 三 个 函数 中 最 复杂 的 ， 因 为 它 需 要 处 理 
前 一 节 描 述 的 任意 位 置 ， 其 中 包括 向 环 的 两 端 添 加 值 的 情形 。 疝 环 的 
两 端 添 加 值 的 特例 可 通过 Ring_addlo 和 Ring_addhi 处 理 ( 空 环 的 处 理 亦 


涵盖 于 其 中 ) ， 首 先 通过 位 置 值得 到 该 位 置 右 侧 的 值 的 索引 ， 然 后 将 
新 结 点 添加 到 其 左 侧 ， 如 上 文 的 代码 块 所 述 。 


图 12-5 ”向 q 的 左 侧 插入 一 个 新 结 点 


(functions 


134) += 
void *Ring_add(T ring, int pos, void *x) { 
assert(ring); 
assert(pos >= -ring->length && pos<=ring->length+1); 
if (pos == 1 || pos == -ring->length) 
return Ring_addlo(ring, x); 
else if (pos == 0 || pos == ring->length + 1) 
return Ring _addhi(ring, x); 
else { 


struct node *p, *q; 


int 1 = pos < 0 ? pos + ring->length : pos - 1; 


(q ~ ith node 


136) 
NEW(p); 


(insert 
p to the left of 


q 137) 
ring->length++; 


return p->value = x; 


J 


前 两 个 计 语 句 洱 盖 了 对 环 两 端的 位 置 的 处 理 。 对 i 的 初始 化 ， 处 理 了 对 
应 于 索引 1 到 ring->length-1 的 位 置 。 


删除 值 的 三 个 函数 比 汪 、 加 值 的 图 数 要 容易 ， 因 为 边界 条 件 更 少 一 
些 ， 唯 一 的 边界 条 件 古 删除 环 中 最 后 一 个 值 时 。Ring_remove 是 三 个 琅 
数 中 最 通用 的 ， 它 找到 第 i 个 结 点 ， 并 将 其 从 双 链 表 中 删除 : 


(functions 


134) += 
void *Ring_remove(T ring, int i) { 
void *x; 


struct node *q; 


assert(ring); 
assert(ring->length > 0); 
assert(i >= 0 && i < ring->length); 


(q ~ ith node 


136) 


ring->head = ring->head->rlink; 
x = q->value; 


(delete node 


q 139) 


return x; 


如 果 i 是 0，Ring_remove 会 删除 第 一 个 结 点 ， 因 而 必须 将 head 重 定 问 到 
下 一 个 结 点 。 


添加 一 个 结 点 涉及 四 次 指针 赋值 ， 删 除 一 个 结 点 只 需要 两 次 : 


(delete node 


q 139) = 

q->llink->rlink = q->rlink; 
q->rlink->llink = q->llink; 
FREE(q); 


if (--ring->length == 0) 


ring->head = NULL; 


图 12-6 中 的 第 二 和 第 三 幅 图 ， 分 别 说 明了 该 代码 块 开头 两 个 语句 各 目 
的 将 果 。 受 到 影响 的 链接 以 加 重 弧 线 显示 。<delete node q 194> 中 的 第 
三 个 语句 会 释放 结 点 ， 最 后 两 个 语句 将 ring 的 length 字 上 段 减 1， 如 果 刚 
好 删除 了 环 中 最 后 一 个 结 点 ， 则 将 head 指 针 置 为 NULL。 同样 ， 对 于 
从 单 结 点 和 两 结 点 环 中 删除 结 点 的 情形 来 说 ， 重 新 绘制 该 序列 图 也 是 
有 和 神 益 的 。 


Ring_remhi 的 实现 类 似 ， 但 更 容易 查找 要 删除 的 结 点 : 


(functions 


134) += 
void *Ring_remhi(T ring) { 
void *x; 


struct node *q; 


assert(ring); 
assert(ring->length > 0); 
q = ring->head->llink; 

x = q->value; 


(delete node 


q 139) 


return x; 


图 12-6 ”删除 结 点 


如 上 所 示 ，Ring_addlo 的 实现 是 通过 调用 Ring_addhi 并 将 ring 的 
head 字 段 指向 其 前 趋 。 可 以 用 “对 称 ”( 指 步骤 相反 ， 如 同 镜像 对 称 ) 
的 惯用 法 来 实现 Ring_remlo: 将 ring 的 head 指 向 其 后 继 ， 然 后 调用 
Ring remhiBH#] ° 


(functions 


134) += 

void *Ring_remlo(T ring) { 
assert(ring); 
assert(ring->length > 0); 
ring->head = ring->head->rlink; 


return Ring_remhi(ring); 


PI lye eae ETHER ° Une EE, ABARAT ETT H 
旋转 一 个 N 值 环 ， 这 意味 着 索引 为 n 模 N 的 值 将 成 为 新 的 head。 如 有 果 n 是 


负 值 ， 那 么 环 将 赣 时 针 旋转 ， 这 意味 着 head 将 移动 到 索引 为 n + NAY 
值 。 


(Functions 


134) += 
void Ring_rotate(T ring, int n) { 
struct node *q; 


int 1; 


assert(ring); 
assert(n >= -ring->Llength && n <= ring->length); 
if (n >= 0) 
i = n%ring->length; 
else 
i = n + ring->length; 


(q ~ ith node 


136) 


ring->head = q; 


这 里 使 用 代码 块 <q ith node 136>， 确 保 了 旋转 沿 最 短路 径 进行 。 


12.3 扩展 阅读 


[Knuth，1973a] 和 [Sedgewick，1990] 两 书 都 详细 阐述 了 操作 双 链 
表 的 算法 。 


Icon 中 提供 的 一 些 向 列表 删除 和 添加 值 的 操作 ， 与 Ring 提 供 的 操 
作 类 似 。 习 题 12.4 探 讨 了 Icon 的 实现 。Ring_add 中 指定 位 置 的 方案 ， 即 
取 目 Icon 。 


12.4 习题 
12.1 重 写 Ring_free 中 的 循环 ， 消 除 对 变量 n 的 使 用 ， 使 用 链表 结 
构 人 确定 循环 何 时 结 


12.2 ”仔细 考察 Ring_rotate 的 实现 。 解 释 第 二 个 if 语 句 的 后 项 为 何 
必须 写作 i=n+ring->length。 


12.3 ”对 Ring_get(ring, i) 的 调用 通常 会 后 接 男 一 个 调用 ， 如 
Ring_get(ring, it1)。 修 改 环 的 实现 ， 使 得 环 能 够 记录 最 近 访 问 的 索引 
及 对 应 结 点 ， 并 在 可 能 的 情况 下 使 用 该 信息 ， 以 避免 <q ith node 
136> 中 的 循环 。 在 添加 或 删除 值 时 ， 不 要 起 记 更 新 该 信息 。 对 此 设计 
一 个 测试 程序 ， 测 量 此 项 改进 带 来 的 好 处 。 


12.4 Icon 实现 了 列表 ， 它 类 似 于 环 ， 征 数组 的 双 链表 ， 每 个 数组 
包含 N 个 值 。 这 些 数组 用 作 环 形 绥 冲 区 ， 类 似 Seq 实 现 中 的 数组 。 查 找 
第 i 个 值 ， 通 常 需要 在 列表 中 遍历 WN 个 数组 ， 然 后 计算 第 个 值 在 目标 
数组 中 的 索引 。 添 加 一 个 值 ， 或 者 将 其 添加 到 某 个 现存 数组 中 的 空 模 
位 ， 或 者 需要 添加 一 个 新 数组 。 删 除 一 个 值 ， 将 使 数组 中 空 出 一 个 模 
位 ， 如 琳 该 值 是 数组 中 最 后 一 个 值 ， 那 么 将 数组 从 列表 中 删除 并 释 


放 “。 该 表示 比 本 章 描述 的 实现 更 为 复 洒 ， 但 对 大 的 环 来 讽 ， 其 性 能 
好 。 使 用 该 表示 重新 实现 环 ， 并 测量 这 两 个 实现 的 性 能 。 需 要 多 大 的 
环 ， 才 能 检测 到 改进 带 来 的 好 处 ? 


ABE MHE 


Bom PMR SUORANA, AA oc am Re 
户 程序 提供 的 函数 操作 。 与 此 相 比 ， 整 数 的 集合 灵活 性 较 少 ， 但 使 用 
很 频繁 ， 我 们 有 理由 将 其 实现 为 一 个 独立 的 ADT。Bit 接 口 寻 出 了 操作 
位 同 量 的 钞 数 ， 位 同 量 可 用 于 表示 从 0 到 N-1 的 整数 集合 。 例 如 ，256 
位 的 位 同 量 可 用 于 高 效 地 表示 字符 的 集合 。 


Bit 接 口 提供 了 Set 接 口中 大 部 分 的 集合 操作 函数 ， 以 及 少量 特定 于 
位 辣 量 的 函数 。 不 同 于 Set 接 口 提供 的 集合 ， 由 位 同 量 表示 的 集合 有 一 
个 定义 明确 的 全 集 ， 即 从 0 到 N-1 的 所 有 整数 构成 的 集合 。 因 而 ，Bit 接 
口 可 以 提供 set 接口 所 不 能 提供 的 函数 ， 如 集合 的 补 集 。 


13.1 接口 


“位 同 量 ” 这 个 名 称 掏 示 了 这 种 整数 集合 的 表示 实质 上 是 比特 位 的 
序列 。 尽 管 如 此 ，Bit 接 口 仍然 只 导出 了 一 个 不 透明 类 型 ， 来 表示 位 同 


i=) 


HÆ: 


(bit.h 


》 三 
#ifndef BIT_INCLUDED 


#define BIT_INCLUDED 


#define T Bit_T 
typedef struct T *T; 


(exported functions 
142) 


#undef T 


#endif 


— META) BAS TR Ee DE, HBit newt AEM AY Fae: 


(exported functions 


142) = 
extern T Bit_new (int length); 
extern int Bit_length(T set); 


extern int Bit_count (T set); 


Bit_new 创 建 一 个 包含 length 个 比特 位 的 新 向 量 ， 并 将 所 有 比特 位 都 设 
置 为 0。 该 向 量 表示 了 从 0 到 length-1 的 所 有 整数 (包含 0 和 length-1) ° 
传递 负 的 length 值 ， 是 一 个 已 检查 的 运行 时 错误 。Bit new 可 能 引发 


Mem failed ° 


Bit_length 返 回 set 中 的 比特 位 数 ，Bit count 返回 set 中 1 的 数目 〈 即 
置 位 的 比特 位 数 ) 。 


向 该 接口 中 任何 例 程 (Bit union、Bit_inter、Bit_ minus 和 了 Bit_diff 
除外 ) 传递 的 T 值 为 NULL， 是 已 检查 的 运行 时 错误 。 


(exported functions 


142) += 
extern void Bit_free(T *set); 


Bit_ free 释放 *set 并 将 *set 清 零 。set 或 *set 是 NULL ， 则 造成 已 检查 的 运 
行 时 错误 。 


集合 中 的 各 个 元 素 〈 即 向 量 中 的 各 个 比特 位 ) ， 通 过 下 列 函 数 操 
人 


(exported functions 


142) += 


extern int Bit_get(T set, int n); 


extern int Bit_put(T set, int n, int bit); 


Bit_get 返 回 比 特 位 n， 因 而 测试 了 pn 是 否 在 set 中 ， 即 如 果 set 中 的 比特 位 
n 是 1，Bit_get 将 返回 1， 否 则 返回 0。Bit_put 将 集合 中 的 比特 位 n 设 置 为 
bit， 并 返回 该 比特 位 的 原 值 。 如 果 n 为 负 值 或 大 于 等 于 set 的 长 度 ， 或 
bit 是 0 和 1 以 外 的 值 ， 都 会 造成 已 检查 的 运行 时 错误 。 


上 述 函 数 操作 集合 中 的 单个 比特 位 ， 而 以 下 的 函数 


(exported functions 


142) += 
extern void Bit_clear(T set, int lo, int hi); 
extern void Bit set (T set, int lo, int hi); 


extern void Bit not (T set, int lo, int hi); 


将 操作 集合 中 连续 的 比特 序列 ， 即 集合 的 和子 集 。Bit_clear 将 lo 到 hi 的 所 
有 比特 位 清 零 (包含 比特 位 lo 和 hi) ，Bit_set 将 lo 到 hi 的 所 有 比特 位 置 
位 〈 含 比特 位 lo 和 hi) ， 而 Bit_not 将 lo 到 hi 的 所 有 比特 位 取 反 。 如 果 1o 
大 于 hi， 或 lomhi 为 负 值 ， 或 1ohi 大 于 等 于 set 的 长 度 ， 都 会 造成 已 检查 
的 运行 时 错误 © 


(exported functions 


142) += 
extern int Bit_lt (T s, T t); 
extern int Bit_eq (T s, T t); 


extern int Bit_leq(T s, T t); 


如 果 sct，Bit lt 返回 1， 和 否则 返回 0。 如 果 sct，s 是 {t 的 一 个 真子 集 
(proper subset) 。 如 果 Ss=t，Bit eq 返回 1， 和 否则 返回 0。 如 果 sSt， 
Bit leq 返回 1， 否 则 返回 0。 对 这 三 个 函数 来 说 ， 如 果 s$ 和 {t 的 长 度 不 

同 ， 则 是 已 检查 的 运行 时 错误 。 


下 列 函 数 


(exported functions 


142) += 


extern void Bit_map(T set, 


void apply(int n, int bit, void *cl), void *cl); 


从 比特 位 0 开始 ， 对 set 中 的 每 一 个 比特 位 调用 apply。n 有 是 比特 位 的 编 
号 ， 介 于 0 和 集合 的 长 度 减 1 之 间 ，bit 是 比特 位 n 的 值 ，cl 由 客户 程序 提 
供 。apply 不 同 于 传递 到 Table_map 的 函数 ， 它 可 以 改变 set。 如 果 对 比 
特 位 n 调 用 apply 时 ，apply 改 变 了 比特 位 k， 其 中 k>n， 那 么 这 一 次 修改 
在 此 后 (对 比特 位 k) 调用 apply 时 将 是 可 见 的 ， 因 为 Bit_map 必 须 束 地 
处 理 集合 中 的 各 个 比特 位 。 如 果 要 禁用 这 种 语义 ，Bit_map 需 要 在 开始 
处 理 比特 位 之 前 ， 将 位 向 量 复 制 一 份 。 


下 列 画 数 实现 了 4 个 标准 的 集合 操作 ， 这 些 操作 已 经 在 第 9 章 中 摘 
述 过 。 每 个 函数 都 返回 一 个 新 的 集合 ， 作 为 操作 的 结果 。 


(exported functions 


142) += 

extern T Bit_union(T s, T t); 
extern T Bit_inter(T s, T t); 
extern T Bit_minus(T s, T t); 


extern T Bit_diff (T s, T t); 


Bit_union 返 回 S 和 t 的 并 集 ， 记 作 s+t， 实 际 上 是 两 个 位 向 量 的 可 兼容 的 
按 位 或 。Bit_inter 返 回 s 和 t 的 交集 s*t， 它 是 两 个 位 同 量 的 按 位 与 。 
Bit_minusiXFls#tH Ze Rs-t, EHF SAAMI ° Bit_diffik Als Ath) 
对 称 差 s/t， 它 是 两 个 位 疝 量 的 按 位 异 或 。 


该 4 个 函数 的 参数 $ 或 t 可 以 为 NULL 指 针 ， 但 不 能 同时 为 NULL ， 
NULL 指 针 可 以 解释 为 空 集 。 因 而 Bit union(s, NULL) 返 回 s 的 一 个 副 
本 。 这 些 函 数 总 是 返回 非 NULL 的 T 值 。 如 果 s 和 t 同 时 为 NULL ， 或 s 和 tt 
的 长 度 不 同 ， 均 为 已 检查 的 运行 时 错误 。 这 些 函 数 可 能 引发 


Mem Failed $% ° 


13.2 ”实现 


Bit Te AEREN ET, AAAS T A E 
的 长 度 和 回 量 本 号 : 


(bit.c 


Y= 
#include <stdarg.h> 
#include <string.h> 
#include "assert.h" 
#include "bit.h" 


#include "mem.h" 
#define T Bit_T 


struct T { 
int length; 
unsigned char *bytes; 


unsigned long *words; 


(macros 


145) 


(static data 


148) 


(static functions 


152) 


(functions 


145) 


length 字 段 给 出 了 回 量 中 比特 位 的 数目 ， 而 bytes 指 同一 个 至 少 包含 
<length / 8> 个 字 贡 的 内 存 区 。 这 些 比特 位 通过 索引 bytes 来 访问 : EAT 
bytes[ 计 中 包含 了 从 比特 位 8 到 8:i+7， 其 中 比特 位 8.i 是 该 字 蔬 的 最 低 
位 。 请 注意 ， 该 约定 只 使 用 了 每 个 字符 的 8 个 比特 位 ， 在 字符 位 宽大 于 
8 的 机 器 上 ， 多 余 的 比特 位 不 会 使 用 。 

如 果 所 有 访问 各 个 比特 位 的 操作 都 使 用 相同 的 约定 (HR Bit_get 
那样 ) ， 那 么 也 可 以 将 位 向 量 的 各 个 比特 位 存储 到 其 他 类 型 (比如 
unsigned long) 的 数组 中 。Bit 使 用 字符 数组 ， 这 使 得 可 以 对 
Bit_count ` Bit_set ` Bit_clear#llBit_notf# H RIKSA SEEN H o 


一 些 操作 (如 Bit_union) 同时 操作 所 有 比特 位 。 对 这 些 操作 ， 访 
问 位 向 量 时 ， 可 通过 words 每 次 访问 BPW 个 比特 位 ， 其 中 


(macros 


145) = 


#define BPW (8*sizeof (unsigned long) ) 


words 必 须 指 向 整数 个 unsigned long，nwords 计 算 了 包含 len 个 比特 位 的 
位 向 量 所 需要 的 unsigned long 的 数目 [2 : 


(macros 


145) += 


#define nwords(len 


) ((( (Len 


) + BPW - 1)&(~(BPW-1)) )/BPW) 


Bit_new 在 分 配 新 的 T 实 例 时 使 用 nwords: 
(functions 
145) = 


T Bit_new(int length) { 


T set; 


assert(length >= 0); 
NEW(set); 
if (length > 0) 
set->words = CALLOC(nwords(length), 
sizeof (unsigned long)); 
else 
set->words = NULL; 
set->bytes = (unsigned char *)set->words; 
set->length = length; 


return set; 


Bit_ new 最 多 可 能 分 配 sizeof(unsigned long)-1 个 多 余 的 字 节 。 这 些 多 余 


FO aS, REE Baten SUE AY LF ° 


z 


Bit_free 释 放 集合 并 将 其 参数 清 零 ，Bit_length 返 回 length 字 段 ° 


(Functions 


145) += 

void Bit_free(T *set) { 
assert(set && *set); 
FREE((*set)->words); 


FREE(*set); 


int Bit_length(T set) { 


assert(set); 


return set->length; 


13.2.1 成 员 操 作 


Bit_count 返 回 集合 中 成 员 的 数目 ， 即 集合 中 值 为 1 的 比特 位 的 数 
目 。 完 全 可 以 简单 地 遍历 集合 并 测试 每 一 个 比特 位 ， 但 使 用 每 个 字 节 
中 两 个 四 比特 位 的 “ 半 字 节 * 来 索引 一 个 表 同 样 很 容易 (四 比特 位 的 半 
字 节 值 共有 16 种 可 能 性 ， 因 此 该 表 只 需要 16 个 项 ， 分 别 给 出 各 个 半 字 
节 值 中 置 位 的 比特 位 数目 ) 。 


(Functions 


145) += 

int Bit_count(T set) { 
int length = 0, n; 
static char count[] = { 


0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4 }; 


assert(set); 

for (n = nbytes(set->length); --n >= 0; ) { 
unsigned char c = set->bytes[n]; 
length += count[c&0xF] + count[c>>4]; 


} 


return length; 


(macros 


145) += 


#define nbytes(len 


) ((( (ten 


) + 8 - 1)&(~(8-1)))/8) 


nbytes 宏 计算 了 <len / 8>， 它 用 于 按 比特 遍历 位 向 量 的 操作 中 。 在 上 壕 
画 数 中 ， 循 环 的 每 次 迭代 计算 集合 的 字 节 n 中 置 位 的 比特 位 数目 (将 两 
个 半 字 节 中 置 位 的 比特 位 数目 相 加 至 length) 。 该 循环 可 能 访问 一 些 多 
余 的 比特 位 ， 但 因为 Bit_new 将 多 余 的 比特 位 初始 化 为 0， 因 而 不 会 破 
坏 结果 。 


位 向 量 中 的 比特 位 n， 是 字 节 n8 中 的 比特 位 n%8， 在 一 个 字 节 
中 ， 比 特 位 的 编号 从 0 开始 ， 从 右 回 左 递增 ， 即 最 低位 是 比特 位 0， 最 
高 位 是 比特 位 7。Bit_get 返 回 比 特 位 n 的 值 时 ， 首 先 将 字 节 n/8 右 移 n9%8 
位 ， 然 后 只 返回 最 右边 的 比特 位 : 


(functions 


145) += 

int Bit_get(T set, int n) { 
assert(set); 
assert(0 <= n && n < set->length); 


return (bit 


n in 


set 147) ; 


set 147) = 


((set->bytes[n/8]>>(n%8 ) )&1) 


Bit_put 使 用 类 似 的 惯用 法 来 设置 比特 位 n 的 值 : 在 bit 为 1 时 ，Bit_put 将 
1 左 移 n%8 位 ， 将 其 结果 按 位 或 到 字 忆 mn/8 中 。 


(Functions 


145) += 
int Bit_put(T set, int n, int bit) { 


int prev; 


assert(set); 
assert(bit == 0 || bit == 1); 
assert(0 <= n && n < set->length); 


prev = (bit 


set 147) ; 
if (bit == 1) 
set->bytes[n/8] |= 1<<(n%8); 
else 
set->bytes[n/8] &= ~(1<<(n%8)); 
return prev; 


} 


如 上 述 代码 所 示 ， 在 bit 为 0 时 ，Bit_put 需 要 将 比特 位 n 清 零 ， 首 先 构 造 
一 个 掩 码 ， 其 中 的 比特 位 n%8 为 0， 其 余 比 特 位 均 为 1， 然 后 将 该 掩 码 
按 位 与 到 字 节 nm/8 中 。 


Bit_set、Bit_clear 和 Bit_not 都 使 用 了 类 似 的 技术 ， 分 别 将 集合 中 某 
个 范围 内 的 比特 位 置 位 、 清 零 、 取 反 ， 但 这 些 函 数 更 为 复杂 ， 因 为 它 
们 必须 处 理 比 特 位 范围 跨越 字 节 边界 的 情形 。 人 例如， 如果 set 有 60 个 比 
特 位 ， 


Bit_set(set, 3, 54) 


RE EB — SP BY CP MB 7 a, RSET BS AA Ee ERME 
位 ， 将 字 市 6 中 的 比特 位 0 到 6 置 位 ， 其 中 字 节 编号 从 0 开始 。 在 图 13-1 
中 ， 这 3 个 区 域 从 石 到 左 排列 ， 分 别 对 应 3 种 深浅 不 同 的 阴影 区 域 。 


7 6 5 4 3 2 1 0 
| | | 


图 13-1 3 种 深浅 不 同 的 阴影 区 域 


字 节 7 中 的 最 高 4 位 不 使 用 ， 因 而 总 是 0。Bit_set 的 代码 反映 出 了 图 
中 的 3 个 区 域 : 


(functions 
145) += 


void Bit_set(T set, int lo, int hi) { 
(check 


set, lo, and 
hi 148) 
if (10/8 < hi/8) { 


(set the most significant bits in byte 


lo/8 148) 


(set all the bits in bytes 


lo/8+1..hi/8-1 148) 


(set the least significant bits in byte 
hi/8 148) 
} else 


(set bits 


10%8..hi%8 in byte 


lo/8 149) 
} 


(check 
set, lo, and 


hi 148) = 
assert(set); 
assert(0 <= lo && hi < set->length); 


assert(lo <= hi); 


当 lo 和 hi 指 的 是 不 同 字 节 中 的 比特 位 时 ， 字 节 lo/8 中 被 置 位 的 比特 位 数 
目 取 决 于 lo%8: 如 果 10%8 为 0， 那 么 该 子 市 中 所 有 比特 位 都 被 置 位 ， 
如 果 它 是 7， 那 么 只 有 最 噩 位置 位 。 这 些 以 及 其 他 可 能 的 情况 由 掩 码 表 
示 ， 存 储 在 一 个 表 中 ， 通 过 lo%8 索 引 


(static data 


148) = 
unsigned char msbmask[] = { 
OxFF, QOxFE, OxFC, OxF8, 


@xFO, OxEO, OxCO, 0x80 


}; 


将 msbmask[lo%8] 按 位 或 到 字 节 1o/8 中 ， 即 可 将 适当 的 比特 位 置 位 : 


(set the most significant bits in byte 


lo/8 148) = 


set->bytes[lo/8] |= msbmask[10%8]; 


在 第 二 个 区 域 中 ， 每 个 字 节 中 所 有 的 比特 位 都 将 被 设置 为 1: 


(set all the bits 


in bytes 10/8+1..hi/8-1 148) = 


{ 
int i; 
for (i = 10/8+1; i < hi/8; i++) 
set->bytes[i] = OxFF; 
} 


hi%8 人 确定 了 字 广 hi/8 中 哪些 比特 位 被 置 位 ， 如 果 hi%8 为 0， 仪 最 低位 置 
位 ， 如 果 它 是 7， 那 么 该 字 和 中 所 有 比特 位 均 置 位 。 同 样 ， 可 以 将 
hi9%8 用 作 索 引 ， 从 一 个 表 中 选择 适当 的 掩 码 ， 按 位 或 到 字 世 Phi/8 中 : 


(set the least significant bits in byte 


hi/8 148) = 


set->bytes[hi/8] |= lsbmask[hi%8]; 


(static data 


148) += 


unsigned char lsbmask[] = { 
0x01, 0x03, 0x07, OXOF, 
Ox1iF, Ox3F, Ox7F, OXFF 
}; 


当 lo 和 hi 指向 同一 字 节 中 的 两 个 比特 位 时 ， 可 以 将 msbmask[lo%8] 
和 ]sbmask[hi%8] 给 出 的 掩 码 合 并 起 来 确定 一 个 掩 码 ， 来 指定 需要 置 位 
的 比特 位 。 例 如 ， 


Bit_set(set, 9, 13) 


将 集合 中 第 二 个 字 节 的 比特 位 0 到 5 置 位 ， 这 可 以 通过 与 掩 码 0x3E 按 位 
或 来 完成 ， 该 掩 码 是 msbmask[1] 和 lsbmask[5] 按 位 与 的 结果 。 一 般 来 
说 ， 这 两 个 掩 码 重合 的 部 分 ， 刚 好 对 应 于 那些 应 该 置 位 的 比特 位 ， 
此 处 理 该 情形 的 代码 是 : 


(set bits 


10%8..hi%8 in byte 


lo/8 149) = 


set->bytes[lo/8] |= (mask for bits 


lo%8. .hi%8 149) ; 


(mask for bits 


10%8..hi%8 149) = 
(msbmask[10%8 ]&lsbmask [h1i%8 ] ) 


Bit_clear 和 Bit_ not 类似 于 Bit _set， 都 以 类 似 的 方式 使 用 了 msbmask 
和 1lsbmask。 对 Bit _ clear 来 说 ， 将 msbmask 和 1lsbmask 取 反 +2! FA DY AES 
码 ， 分 别 按 位 与 到 10/8 和 hi/8 字 节 中 即 可 。 


(functions 


145) += 
void Bit_clear(T set, int lo, int hi) { 


(check 
set, lo, and 


hi 148) 

if (lo/8 < hi/8) { 
int i; 
set->bytes[lo/8] &= ~msbmask[10%8]; 
for (i = 10/8+1; i < hi/8; i++) 

set->bytes[i] = 0; 

set->bytes[hi/8] &= ~lsbmask[h1i%8]; 

} else 


set->bytes[lo/8] &= ~ (mask for bits 


10%8..hi%8 149) ; 
} 


Bit_not 必 须 将 lo 到 hi 各 比特 位 取 反 ， 这 通过 与 适当 撞 码 的 按 位 异 或 来 
完成 : 


(Functions 


145) += 
void Bit_not(T set, int lo, int hi) { 
(check 


set, lo, and 


hi 148) 

if (lo/8 < hi/8) { 
int 1; 
set->bytes[lo/8] ^= msbmask[10%8]; 
for (i = 10/8+1; i < hi/8; i++) 

set->bytes[i] 4= OxFF; 

set->bytes[hi/8] ^= lsbmask[hi%8]; 

} else 


set->bytes[lo/8] ^= (mask for bits 
10%8..hi%8 149) ; 
} 


Bit_map 对 一 个 集合 中 的 每 个 比特 位 调用 apply。 它 将 比特 位 编号 、 比 
特 值 及 一 个 由 客户 程序 提供 的 指针 传递 给 apply。 


(Functions 


145) += 
void Bit_map(T set, 
void apply(int n, int bit, void *cl), void *cl) { 


int n; 


assert(set); 
for (n = 0; n < set->length; n++) 


apply(n, (bit 
n in 


set 147) , cl); 
} 


如 上 述 代 人 码 所 示 ，Bit_ map 所 采用 的 比特 位 编号 方式 ， 与 Bit_get 和 其 他 
将 比特 位 编号 作为 参数 的 Bit 男 数 所 上 暗含 的 比特 位 编号 方式 是 相同 的 ， 
Bit_map 正 是 这 样 将 各 个 比特 位 逐一 传递 给 apply。 每 过 8 个 比特 位 n/8 的 
值 改 变 一 次 ， 因 此 这 很 容易 诱导 我 们 将 set->bytes[m/8] 的 值 复制 到 一 个 
临时 变量 ， 然 后 通过 移 位 和 掩 码 分 别 获 取 各 个 比特 位 。 但 这 种 改进 违 
背 了 接口 的 语义 : 如 末 apply 改 变 了 一 个 它 尚未 “看 到 ”的 比特 位 ， 那 么 
在 对 apply 的 后 续 调 用 中 ，apply 应 该 可 以 看 到 该 比特 位 的 新 值 。 


13.2.2 ”比较 


Bit_edq 比 较 集 合 s 和 t， 如 采 二 者 相等 则 返回 1， 否 则 返回 0。 这 可 以 
通过 比较 s 和 t 中 的 相对 应 的 各 个 unsigned long 值 来 完成 ， 在 发 现 sz<t 时 即 
可 停止 循环 : 


(Functions 


145) += 
int Bit_eq(T s, T t) { 
int 1; 
assert(s && t); 
assert(s->length == t->length); 
for (i = nwords(s->length); --i >= 0; ) 
if (s->words[i] != t->words[i]) 
return 0; 


return 1; 


Bit_leq 比 较 集 合 s 和 t， 确 定 s 是 否 等 于 { 或 是 t 的 真子 集 。 如 果 对 s 中 
每 个 置 位 的 比特 位 ，t 中 对 应 的 比特 位 都 是 1， 那 么 即 有 sSst。 在 集合 
面 ， 如 采 t 的 补 集 与 s 的 交集 为 空 ， 那 么 SSt。 因 而 ， 如 采 s& ~t 等 于 0， 
既 有 sSt， 对 s 和 t 中 的 每 个 unsigned long 来 说 ， 该 关系 仍然 成 立 。 如 果 
对 所 有 i， 都 有 s->u.words[ 计 St->u.words[ 讨 ， 那 么 就 有 sSt。Bit_leq 利 用 
该 性 质 ， 在 结果 已 知 的 情况 下 停止 比较 。 


(functions 


145) += 


int Bit_leq(T s, Tt) { 


int 1; 


assert(s && t); 
assert(s->length == t->length); 
for (i = nwords(s->length); --i >= 0; ) 
if ((s->words[i]& ~t->words[i]) != 0) 
return 0; 


return 1; 


如 宁 s 是 t 的 真子 集 ，Bit lt 返回 1， 如 果 sSt 且 s<#， 那 么 有 sct， 这 可 以 
通过 检查 以 下 两 项 来 确认 : 对 每 个 1， 都 有 s->u.words[i]& ~t- 
>uwords[ 计 等 于 0; 至 少 有 一 个 1i， 使 得 S->uwords[ 计 不 等 于 ft- 
>u.words[i]: 


(functions 


145) += 
int Bit_lt(T s, T t) { 


int i, lt = 0; 


assert(s && t); 

assert(s->length == t->length); 

for (i = nwords(s->length); --i >= 0; ) 
if ((s->words[i]& ~t->words[i]) != 0) 
return 0; 


else if (s->words[i] != t->words[i]) 


1t |= 1; 


return 1t; 


13.2.3 ”集合 操作 


实现 集合 操作 s + t、s*t、s-t 和 s/t 的 函数 可 以 按 每 次 一 个 长 整数 
来 处 理 集合 ， 因 为 其 功能 与 比特 位 编号 无 和 天。 这些 函数 还 将 T 的 NULL 
值 解释 为 空 集 ， 但 s 或 t 中 至 少 有 一 个 不 能 为 NULL 值 ， 这 样 才能 确定 结 
果 集 的 长 度 。 这 些 函 数 的 实现 类 似 ， 但 有 三 个 差别 : 当 s 和 t 指 向 同一 
集合 时 结 采 集 不 同 ， 处 理 NULL 参 数 的 方式 不 同 ， 人 处理 两 个 非 空 集 时 
形成 结果 的 方式 不 同 。 这 些 函 数 的 相似 性 通过 setop 安 捕获 : 


(macros 


145) += 


#define setop(sequal, snull, tnull, op 


) \ 

if (s == t) { assert(s); return sequal 
; } \ 

else if (s == NULL) { assert(t); return snull 
;}、\ 


else if (t == NULL) return tnull 


else { \ 
int 1; T set; \ 
assert(s->length == t->length); \ 
set = Bit_new(s->length); \ 
for (i = nwords(s->length); --i >= 0; ) \ 


set->words[i] = s->words[i] op 


t->words[i]; \ 


return set; } 
Bit_union 可 以 代表 这 些 函 数 : 


(functions 


145) += 
T Bit_union(T s, T t) { 
setop(copy(t), copy(t), copy(s), |) 
} 


如 果 s 和 t 指 向 同一 集合 ， 则 结果 是 该 集合 的 一 个 副本 。 如 果 s 或 t 二 者 之 
一 为 NULL， 结 果 是 男 一 个 集合 (必须 不 为 NULL) 的 一 个 副本 。 否 
则 ， 结 果 是 一 个 集合 ， 其 中 的 各 个 unsigned long 值 是 s 和 t 中 对 应 的 
unsigned long 值 按 位 或 的 结果 。 


私有 六 数 copy 会 将 其 参数 集合 复制 一 份 ， 它 下 先 分 配 一 个 同样 长 
度 的 新 集合 ， 而 后 将 参数 集合 中 的 各 个 比特 位 复制 到 新 的 集合 : 


(static functions 


152) = 
static T copy(T t) { 


T set; 


assert(t); 
set = Bit_new(t->length); 
if (t->length > 0) 
memcpy(set->bytes, t->bytes, nbytes(t->length) ); 


return set; 


Bit_inter 如 果 有 任何 一 个 参数 是 NULL ， 则 返回 空 集 ， 否 则 ， 它 将 
返回 一 个 集合 ， 是 其 参数 集合 的 按 位 与 结果 : 


(Functions 


145) += 
T Bit_inter(T s, Tt) { 
setop(copy(t), 
Bit_new(t->length), Bit_new(s->length), &) 


如 果 s 为 NULL，s-t 是 空 集 ， 但 如 果 t 为 NULL，s-t 等 于 s。 如 果 s 和 和 t 
都 不 是 NULL，s-t 是 t 的 补 集 和 s 的 按 位 与 结果 。 当 s 和 t 指 问 同 一 Bit-T 集 
合 时 ，s-t 为 空 集 。 


(Functions 


145) += 
T Bit_minus(T s, T t) { 
setop(Bit_new(s->length), 
Bit_new(t->length), copy(s), & ~) 
} 


setop 的 第 三 个 参数 为 & ~， 这 使 得 setop 中 的 循环 体 在 Bit_minus 中 展开 
后 的 结果 如 下 所 示 : 


set->words[i] = s->words[i] & ~t->words[i]; 


Bit_di 作 实现 了 对 称 差 s/t， 它 是 s 和 t 的 按 位 异 或 结果 。 当 s 为 NULL 
BY, s/tFt, 友之 环 然 3% 


(functions 


145) += 
T Bit_diff(T s, Tt) { 

setop(Bit_new(s->length), copy(t), copy(s), ^) 
} 


如 上 述 代 码 所 示 ， 当 s 和 t 指 癌 同一 集合 时 ，s /1 为 空 集 。 


13.3 扩展 阅读 


[Briggs and Torczon，1993] 描 述 了 一 种 集合 表示 ， 专 门 为 大 的 入 
玖 集合 设计 ， 可 以 在 常数 时 间 内 初始 化 集合 。[Gimpel，1974] 介 绍 了 
多 道 空 间 (spatially multiplexed) 的 集合 ， 习 题 13.5 描 述 了 这 种 集合 。 


13.4 习题 


oe a 大 部 分 比特 位 都 是 0。 修 改 Bit 的 实现 ， 使 之 
一 些 措 施 对 稀 踊 集合 节省 空间 ， 例 如 ， 不 存储 大 量 重复 的 0。 


13.2 ”设计 一 个 接口 ， 支 持 [Briggs and Torczon，1993] 摘 述 的 稀 玻 
集合 ， 并 实现 你 的 接口 。 


13.3 ”Bit_set 使 用 下 述 循 环 


for (i = l0/8+1; i < hi/8; i++) 


set->bytes[i] = OxFF; 


+ \10/8+1 2 hi/8IN & FAY AT KEMEM ° Bit_clear#l Bit_nott#,4 
类 似 的 循环 。 修 改 这 些 循环 ， 在 可 能 的 情况 下 ， 对 unsigned long (而 
Nee) 来 清 零 、 置 位 和 取 反 。 注 意 对 齐 约 束 。 这 项 改变 可 能 对 某 
些 应 用 程序 的 执行 时 间 有 可 测量 的 改进 ， 你 能 找到 这 样 的 应 用 程序 
吗 ? 


13.4 假定 Bit 搂 口中 的 函数 可 以 跟 踩 集合 中 置 位 的 比特 位 的 数 
目 。Bit 搂 口中 哪些 函数 可 以 简化 或 改进 ?实现 这 种 方案 ， 并 设计 一 个 
测试 程序 ， 来 测定 速度 的 提高 。 请 确定 在 何 种 情况 下 ， 这 种 做 法 的 好 
处 可 以 抵消 其 成 本 。 


13.5 ”在 多 道 空 间 集 合 中 ， 比 特 位 是 按 字 存 储 的 。 在 一 合 int 位 寓 
为 32 位 的 计算 机 上 ， 一 个 包含 N 个 unsigned int 的 数组 ， 可 以 容纳 32 个 N 
比特 位 的 集合 。 该 数组 的 每 个 比特 位 列 都 是 一 个 集合 。 一 个 32 位 的 掩 
码 ， 仪 在 比特 位 置 位 ， 即 标识 了 列 处 的 集合 。 这 种 表示 的 一 个 好 处 
古 ， 通 过 操作 这 种 掩 码 ， 一 些 操 作 可 以 在 常数 时 间 内 完成 。 例 如 两 个 
集合 的 并 集 ， 其 掩 码 是 两 个 源 集合 的 掩 码 的 并 集 。 许 多 N 位 集合 ， 
以 共 至 同一 个 N 字 的 数组 ， 分 配 一 个 新 集合 时 ， 只 和 需 从 数组 中 分 配 一 
个 空闲 的 位 列 即 可 〈 如 果 没 有 空闲 位 列 ， 则 需要 分 配 新 数组 ) 。 这 种 
性 质 可 以 节省 空间 ， 但 却 使 存储 管理 大 大 复杂 化 ， 因 为 对 任意 N 值 ， 
实现 都 必须 跟踪 有 空 内 位 列 的 N 字 数组 。 使 用 这 种 表示 重新 实现 Bit 接 
口 。 如 果 必 须 改变 原 接口 ， 可 以 设计 一 个 新 接口 。 


[1] 实际 上 是 基于 数组 的 预计 算 实 现 。 一 一 译 者 注 


[2] 不 是 length 个 比特 位 。 一 一 译 者 注 


第 14 章 ”格式 化 


标准 C 库 函数 printft、fprintft 和 vprintft 可 以 格式 化 数据 并 输出 ， 而 
sprintf 和 vsprintf 可 以 将 数据 格式 化 到 字符 串 中 。 这 些 函 数 调用 时 的 参数 
包括 一 个 格式 串 和 一 组 参数 列表 ， 列 表 中 的 参数 将 被 格式 化 。 格 式 化 的 
过 程 ， 由 内 入 到 格式 串 中 的 转换 限定 符 (conversion specifier, JÉ 
如 %c) 控制 ， 第 i 个 %c 描 述 了 格式 串 之 后 的 参数 列表 中 第 i 个 参数 如 何 格 
式 化 。 格 式 串 中 其 他 字符 逐 字 复制 。 例 如 ， 如 果 name 是 字符 串 Array， 
而 count 为 8， 


sprintf(buf, "The %s interface has %d functions\n", 


name, count) 


会 将 字符 串 "The Array interface has 8 functions\n" 填 充 到 buf 中 ， 其 中 \n 表 
示 换 行 行 。 转 换 限 定 符 还 可 以 包 仿 宽度、 精度 和 填充 字符 等 说 明 信 息 。 
例如 ， 如 有 果 在 上 述 的 格式 串 中 使 用 %06d 而 不 是 %d， 那 么 会 将 字符 
"The Array interface has 000008 functions\n" 填 充 到 buf 中 。 


这 些 函 数 训 无 疑问 很 有 用 ， 但 却 至 少 有 4 个 缺点 。 首 先 ， 转 换 限 定 
符 的 集合 是 固定 的 ， 因 而 无 法 提供 特定 于 客户 程序 的 代码 。 其 次 ， 格 式 
化 的 结果 ， 只 能 输出 或 存储 到 字符 串 中 ， 无 法 指定 特定 于 客户 程序 的 输 
出 例 程 。 再 次 ， 也 是 最 危险 的 缺点 是 ，sprintf 和 vsprintf 可 能 试图 在 输出 
缓冲 区 中 存储 超出 其 容量 的 字符 ， 同 时 又 无 法 指定 输出 缓冲 区 的 大 小 。 
最 后 ， 对 于 参数 列表 的 可 变 部 分 传递 的 各 个 参数 ， 没 有 对 应 的 类 型 检查 
机 制 。Fmt 接 口 改正 了 前 三 个 缺点 。 


14.1 #0 


Fmt 接 口 导出 了 11 个 函数 、 一 个 类 型 、 一 个 变量 和 一 个 异常 : 


(fmt.h 


y= 
#ifndef FMT_INCLUDED 
#define FMT_INCLUDED 
#include <stdarg.h> 
#include <stdio.h> 


#include "except.h" 

#define T Fmt_T 

typedef void (*T)(int code, va_list *app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[256], int width, int precision); 


extern char *Fmt_flags; 


extern const Except_T Fmt_Overflow; 


(exported functions 


155) 


#undef T 


#endif 


从 技术 上 讲 ，Fmt 不 是 一 个 抽象 数据 类 型 ， 但 它 确 实 导出 了 一 个 类 型 
Fmt_T， 它 定义 了 与 每 个 格式 化 代码 关联 的 格式 转换 函数 的 类 型 ， 下 文 
将 详细 阐述 。 


14.1.1 格式 化 函数 


两 个 主要 的 格式 化 函数 古 : 


(exported functions 


155) = 

extern void Fmt_fmt (int put(int c, void *cl), void *cl, 
const char *fmt, ...); 

extern void Fmt_vfmt(int put(int c, void *cl), void *cl, 


const char *fmt, va_list ap); 


Fmt_fmtiž RE = SS Behe Hh AA A E OR AS RAR B A E 
BL, 并 调用 put(c, c) 来 输出 每 个 格式 化 完毕 的 字符 c; c 当 做 unsigned char 
处 理 ， 因 此 传递 到 put 的 c 值 总 是 正 的 。Fmt_vfmt 按 照 fmt 给 出 的 格式 串 来 
格式 化 ap 指 同 的 各 个 参数 ， 具 体 过 程 类 似 Fmt_fmt， 如 下 所 述 。 


参数 qq 可 以 指 回 客户 程序 提供 的 数据 ， 它 会 直接 传递 给 客户 程序 提 
供 的 put 函 数 而 不 作 解 释 。put 函 数 返 回 一 个 整数 ， 通 党 是 其 参数 。Fmt 函 
数 并 不 使 用 该 功能 ， 但 这 种 设计 使 得 可 以 某 些 机 器 上 将 标准 IO 画 数 
fputc 用 作 put 函 数 〈 同 时 ， 需 要 作为 cl 传递 FILE*) 。 例 如 ， 


Fmt_fmt((int (*)(int, void *))fputc, stdout, 


"The %S interface has %d functions\n", name, count) 


输出 
The Array interface has 8 functions 


到 标准 输出 ， 此 时 name 为 Array 而 count 为 8° 其 中 的 转换 是 必要 的 ， 因 为 
fputc 的 类 型 为 int (*)(int, FILE*)， 而 put 的 类 型 为 int (*)(int, void*) ° (M4 
FILE 指 针 的 表示 与 void 指 针 相同 时 ， 这 种 用 法 才 是 正确 的 。 


图 14-1 给 出 的 语法 图 定义 了 转换 限定 符 的 语法 。 和 转换 限定 符 中 的 字 
符 定 义 了 一 条 罕 过 语法 图 的 路 径 ， 有 效 的 限定 符 会 从 头 到 尾 通 历 一 条 路 
径 。 限 定 符 以 % 开 头 ， 后 接 可 选 的 标志 字符 ， 其 解释 取决 于 格式 码 ， 接 
下 来 是 可 选 的 字段 宽度 、 周 期 和 精度 ， 最 后 以 单字 符 的 格式 码 结束 ， 由 
图 14-1 中 的 C 表 示 。 有 效 的 标志 字符 是 那些 出 现在 Fmt_flags 指 癌 的 字符 
串 中 的 字符 ， 它 们 通常 指定 了 对 齐 (justification) 、 填 充 (padding) 和 
截断 (truncation) 信息 。 如 果 一 个 标志 字符 在 一 个 限定 符 中 出 现 多 于 
255 次 ， 则 是 已 检查 的 运行 时 错误 。 如 果 字 段 宽度 或 精度 显示 为 星 号 ， 
那么 假定 下 一 个 参数 为 整数 ， 且 用 作 宽 度 或 精度 。 因 而 ， 一 个 限定 符 可 
能 消耗 零 或 多 个 参数 ， 这 取决 于 星 号 的 出 现 与 否 以 及 与 格式 码 关 联 的 具 
体 转 换 画 数 。 如 果 指 定 的 宽度 或 精度 值 等 于 INT_MIN (最 小 的 负 整 
数 ) ， 则 是 已 检查 的 运行 时 错误 。 


specification: number 

Gea coe | oe 
"%' L > > p C— 
number: 

THI 
A on 
digit E > J 
图 14-1 ”转换 限定 符 的 语法 


标志 、 宽度 和 精度 的 准确 的 解释 ， 取 决 于 与 转换 限定 符 关 联 的 转换 
函数 。 所 调用 的 转换 函数 ， 是 调用 FEmt_fmt 时 已 注册 的 那些 函数 。 


默认 的 转换 限定 符 及 与 之 相关 的 转换 函数 ， 古 标准 WO 库 中 printf 和 
相关 函数 功能 的 一 个 子 集 。Fmt_flags 的 初始 值 指向 字符 串 "-+ 0"， 其 中 
的 字符 是 有 效 的 标志 字符 。- 使 得 被 转换 的 字符 串 按 给 定 的 字段 宽度 奖 左 
对 齐 ， 否 则 ， 字 符 串 将 向 右 对 齐 。+ 使 得 符号 转换 的 结果 以 -或 + 开始 。 
空格 使 得 符号 转换 的 结果 以 空格 开始 REER) 。0 使 得 数字 转换 
的 结果 在 前 部 用 0 补 齐 ， 直 至 达到 字段 宽度 为 止 ， 否 则 使 用 空格 补 齐 。 
负数 宽度 解释 为 -标志 加 上 对 应 的 正 数 宽度 值 。 负 数 精 度 解释 为 没有 指定 


精度 。 


表 14-1 绕 述 了 默认 的 转换 限定 特 。 这 些 十 标准 C 库 中 的 定义 的 限定 
符 的 一 个 子 集 。 


表 14-1 默认 的 转换 限定 符 


转换 限定 符 参数 类 型 描述 
参数 解释 为 无 符号 字符 并 输出 
a 参数 将 转换 为 其 有 符号 十 进 制 表示 。 如 果 给 定 精度 ， 精 度 指定 了 最 少 的 数位 数目 ， 如 有 必 
aoe 要 ， 则 会 在 前 部 加 0 补 齐 。 默 认 精度 是 1。 如 果 - 和 0 标志 同时 出 现 ， 或 给 定 了 精度 ， 则 名 略 0 


标志 。 如 果 + 和 空格 标志 同时 出 现 ， 则 忽略 空格 标志 。 如 果 参 数 和 精度 是 0， 那 么 转换 后 的 结 
果 不 会 有 字符 输出 


id het 参数 转换 为 无 符号 表示 (o 表 示 八 进 制 ,，u 表 示 十 进 制 ，x 表 示 十 六 进 制 )。 对 于 x， 大 于 9 
A 的 数位 分 别 用 字母 abcdef 表 示 。 标 志和 精度 的 解释 类 似 于 a 
i 参数 转换 为 为 十 进 制 表 示 ， 形 如 zy。 精度 给 定 了 小 数 点 右 侧 数位 的 数目 ， 默 认 值 为 6。 如 
ae 果 将 精度 显 式 指 定 为 0， 则 省 略 小 数 点 。 在 小 数 点 出 现时 ，x 至 少 有 一 个 数位 。 精 度 大 于 99， 


则 是 已 检查 的 运行 时 错误 。 标 志 的 解释 类 似 于 a 
参数 转换 为 为 十 进 制 表示 ， 形 如 xye 雪 。x 总 是 一 个 数位 ，z 总 是 两 个 数位 。 标 志和 精度 的 


e 
iieii 解释 类 似 于 a 
g 参数 以 # 或 e 的 方式 转换 为 十 进 制 表示 ， 具 体 如 何 转换 取决 于 其 值 。 精 度 给 定 了 有 效 数字 的 
double 数目 ， 默 认 值 为 1。 如 果 P 小 于 -4 或 大 于 等 于 精度 ， 则 结果 形 如 xyetp， 否 则 ， 结 果 形 如 cy 
y 没 有 后 补 零 ， 当 y 为 0 时 忽略 小 数 点 。 精 度 大 于 99， 则 是 已 检查 的 运行 时 错误 
oha 参数 转换 为 其 十 六 进 制 表示 ， 规 则 类 似 u。 标 志和 精度 的 解释 类 似 于 a 
s 来 自 于 对 应 参数 的 后 续 字符 都 会 输出 ， 直 至 遇 到 0 字符 为 止 ， 或 输出 的 字符 数 已 经 达到 了 


显 式 设 置 的 精度 限制 。 除 -之 外 的 所 有 标志 都 会 忽略 


以 下 函数 


(exported functions 


155) += 
extern void Fmt_print (const char *fmt, ...); 
extern void Fmt_fprint(FILE *stream, 
const char *fmt, ...); 
extern int Fmt_sfmt (char *buf, int size, 
const char *fmt, ...); 
extern int Fmt_vsfmt(char *buf, int size, 


const char *fmt, va_list ap); 
类 似 于 C 库 函数 printft、fprintf、sprintf 和 vsprintf 。 


Fmt_fprint 按 照 fmt 给 定 的 格式 串 来 格式 化 第 三 个 和 后 续 参 数 ， 并 将 
格式 化 输出 写 到 指定 的 流 中 。Fmt_print 将 格式 化 输出 写 到 标准 输出 。 


Fmt_sfmt 按 照 fmt 给 定 的 格式 串 来 格式 化 第 四 个 和 后 续 参 数 ， 将 格式 
化 输出 以 0 结尾 字符 串 形 式 ， 存 储 到 buf[0..size - 1] 中 。Fmt_vsfmt 的 语义 
类 似 ， 但 其 参数 则 取 自 于 可 变 长 度 参数 列表 ap。 这 两 个 函数 都 会 返回 存 
储 到 buf 中 字符 的 数 日 ， 不 计算 结尾 的 0 字符。 如 果 Fmt_sftmt 和 Fmt_vsfmt 
输出 的 字符 数 多 于 size (包含 结尾 的 0 字符 ) ， 则 引发 Fmt_Overflow 异 
常 。 如 有 果 size 不 是 正 值 ， 则 造成 已 检查 的 运行 时 错误 。 


以 下 两 个 函数 


(exported functions 


155) += 
extern char *Fmt_string (const char *fmt, ...); 


extern char *Fmt_vstring(const char *fmt, va_list ap); 


类 似 Fmt_sfmt 和 Fmt_vsfmt， 但 它们 会 分 配 足 够 大 的 字符 串 来 容纳 格式 化 
输出 结果 ， 并 返回 这 些 字 符 串 。 客 户 程序 负责 释放 返回 的 字符 串 。 
FEmt_string 和 Fmt_vstring 可 能 引发 Mem_Failed 寞 名 ° 


如 果 传 递 给 上 述 任 一 格式 化 函数 的 参数 put、buf 或 fmt 为 NULL， 则 
造成 已 检查 的 运行 时 错误 。 


14.1.2 ”转换 函数 


每 个 格式 符 C 都 关联 到 一 个 转换 函数 。 这 些 关 联 可 以 通过 调用 下 述 
图 数 来 改变 : 


(exported functions 


155) += 


extern T Fmt_register(int code, T cvt); 


Fmt_register 将 cvt 设 置 为 code 指 定 的 格式 符 对 应 的 转换 函数 ， 并 返回 指 问 
先前 转换 函数 的 指针 。 因 而 ， 客 户 程 序 可 以 临时 蔡 换 转换 函数 ， 而 后 又 
恢复 到 原来 的 转换 函数 。code 小 于 1 或 大 于 255， 都 是 已 检查 的 运行 时 错 
误 。 如 果 格 式 串 使 用 的 转换 限定 符 没 有 相关 联 的 转换 画 数 ， 同 样 是 已 检 
查 的 运行 时 错误 。 


许多 转换 函数 ， 都 是 %d 和 %s 转 换 限 定 符 对 应 的 转换 函数 的 变 体 。 
Fmt 导 出 了 两 个 实用 函数 ， 供 对 应 于 数值 和 字符 串 的 内 部 转换 函数 使 
用 。 


(exported functions 


155) += 
extern void Fmt_putd(const char *str, int len, 

int put(int c, void *cl), void *cl, 

unsigned char flags[256], int width, int precision); 
extern void Fmt_puts(const char *str, int len, 

int put(int c, void *cl), void *cl, 


unsigned char flags[256], int width, int precision); 


Fmt_putd 假 定 str[0..len-1] 包 含 了 一 个 有 符号 数 的 字符 串 表示 ， 它 将 按照 
flags、width 和 precision 指 定 的 转换 ， 如 表 14-1 中 的 %d 所 述 ， 来 输出 该 字 
符 串 。 类 似 地 ，Fmt_puts 按 照 flags、width 和 precision 指 定 的 转换 ， 如 %s 
所 述 ， 来 输出 str[0..len - 1]。 如 果 传 递 给 Fmt_putd 或 Fmt_puts 的 str 为 
NULL 、len 为 负 值 、flags 为 NULL 或 put 为 NULL， 则 是 已 检查 的 运行 时 


HW ° 


Fmt_putd 和 Fmt_puts 本 吴 不 是 转换 函数 ， 但 可 以 被 转换 函数 调用 。 
在 编写 特定 于 客户 程序 的 转换 函数 时 ， 这 两 个 函数 特别 有 用 ， 如 下 文 说 
明 。 


类 型 Fmt_T 定 义 了 转换 函数 的 签名 ， 即 其 参数 的 类 型 和 返回 类 型 。 
转换 函数 调用 时 有 七 个 参数 。 前 两 个 是 格式 码 和 指向 可 变 长 度 参数 列表 
指针 的 指针 ， 该 参数 列表 用 于 访问 被 格 式 化 的 数据 。 第 三 个 和 第 四 个 参 
数 是 客户 程序 的 输出 函数 和 相关 数据 。 最 后 三 个 参数 是 标志 、 字 段 宽度 


和 精度 。 标 志 通 过 一 个 256 个 元 素 的 字符 数组 给 出 ， 第 i 个 元 素 等 于 标志 
字符 在 转换 限定 符 中 出 现 的 次 数 。width 和 precision 在 没有 显 式 给 出 时 等 
FINT_MIN ° 


转换 函数 必须 使 用 如 下 的 表达 式 


va_arg(*app, type 


) 


来 取得 参数 ， 并 根据 与 该 转换 函数 相关 联 的 格式 码 进行 格式 化 。type 是 
该 参数 的 预期 类 型 。 该 表达 式 取 得 参数 的 值 ， 然 后 将 *app 加 1 使 之 指 问 
下 一 个 参数 。 如 果 转 换 函 数 使 *app 不 正确 地 递增 ， 则 造成 未 检查 的 运行 
时 错误 。 


Fmt 用 于 限定 符 %s 的 私有 转换 函数 ， 说 明了 如 何 编写 转换 芳 数 ， 以 
及 如 何 使 用 Fmt_puts。 限 定 符 %s 类 似 printf 的 %s: 其 转换 函数 将 输出 对 
应 的 参数 字符 串 中 的 字符 ， 直 至 遇 到 0 字符 为 止 ， 或 输出 字符 的 数目 已 
经 达到 了 可 选 精度 的 限制 。- 标 志 或 负数 宽度 指定 了 无 对 齐 。 转 换 函 数 使 
用 va_arg 从 可 变 长 度 参数 列表 中 取得 参数 并 调用 Fmt_puts: 


(conversion functions 


159) = 
static void cvt_s(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


char *str = va_arg(*app, char *); 


assert(str); 
Fmt_puts(str, strlen(str), put, cl, flags, 


width, precision); 


Fmt_puts 解 释 flags、width 和 precision， 并 据 此 输出 字符 串 


(functions 


159) = 
void Fmt_puts(const char *str, int len, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision) { 


assert(str); 
assert(len >= 0); 
assert(flags); 


(normalize 
width and 


flags 159) 
if (precision >= 0 && precision < len) 
len = precision; 
if (!flags['-']) 
pad(width - len, ' '); 


(emit 


str[0..len-1] 159) 
if ( flags['-']) 
pad(width - len, ' '); 


(emit 


str[0..len-1] 159) = 


{ 
int i; 
for (i = 0; i < len; i++) 
put((unsigned char)*str++, cl); 
i 


到 unsigned char 的 转换 确保 了 传递 给 put 的 值 总 是 较 小 的 正 整 数 ， 正 如 
Fmt 的 规格 所 限定 。 


在 忽略 宽度 或 精度 时 ，width 和 precision 等 于 INT_MIN。 该 接口 提供 
了 特定 于 客户 程序 的 转换 函数 所 需 的 灵活 性 ， 使 之 能 够 对 宽度 和 精度 使 
用 显 式 设置 /省 略 值 的 所 有 组 合 ， 还 可 以 使 用 重复 的 标志 。 但 默认 转换 画 
数 不 需 要 这 种 一 般 性 ， 它 们 将 省 略 的 宽度 视 为 显 式 将 宽度 设置 为 0， 仙 
数 宽 度 视 为 -标志 连同 对 应 的 正 数 宽 度 ， 人 负数 精度 视 为 省 略 精度 ， 重 复出 
现 的 标志 被 视 作 只 出 现 一 次 。 如 果 有 显 式 设置 的 精度 ， 则 忽略 0 标志 ， 
而 且 如 上 所 示 ， 至 多 会 输出 str 中 的 precision 个 字符 。 


(normalize 


width and 


flags 159) = 


(normalize 


width 160) 


(normalize 


flags 160) 


(normalize 


width 160) 


if (width == INT_MIN) 
width = 0; 

if (width < 0) { 
flags['-'] = 1; 
width = -width; 


(normalize 


flags 160) = 
if (precision >= 0) 


flags['0O'] = 0; 


如 对 pad 的 调用 所 示 ， 必 须 输出 width-len 个 空格 来 正确 地 对 齐 输出 : 


(macros 


160) = 


#define pad(n,c 
) do { int nn = (n 
); \ 
while (nn-- > 0) \ 


put((c 


), cl); } while (0) 
pad 是 一 个 安 ， 因 为 它 需 要 访问 put 和 cl。 


下 一 节 将 描述 其 他 默认 转换 画 数 的 实现 。 


14.2 ”实现 


Fmt 的 实现 包括 接口 中 定义 的 各 个 函数 ， 与 默认 转换 限定 符 天 联 的 
转换 函数 ， 以 及 将 转换 限定 符 上 映射 到 转换 函数 的 表 。 


(fmt.c 


= 
#include <stdarg.h> 
#include <stdlib.h> 


#include <stdio.h> 


#include <string.h> 
#include <limits.h> 
#include <float.h> 
#include <ctype.h> 
#include <math.h> 
#include "assert.h" 
#include "except.h" 
#include "fmt.h" 
#include "mem.h" 


#define T Fmt_T 


(types 


162) 


(macros 


160) 


(conversion functions 


159) 
(data 


160) 


(static functions 


161) 


(functions 


159) 
(data 


160) = 


const Except_T Fmt_Overflow = { "Formatting Overflow" }; 


14.2.1 格式 化 函数 


Fmt_vfmt 是 实现 的 核心 ， 因 为 所 有 其 他 接口 函数 都 调用 它 来 完成 实 
际 的 格式 化 工作 。Fmt_fmt 是 最 简单 的 例子 ， 它 初始 化 一 个 va_list 指 针 ， 
指向 其 参数 列表 的 可 变 部 分 ， 并 调用 Fmt_vfmt: 


(functions 


159) += 
void Fmt_fmt(int put(int c, void *), void *cl, 
const char *fmt, ...) { 


va_list ap; 


va_start(ap, fmt); 
Fmt_vfmt(put, cl, fmt, ap); 


va_end(ap); 


Fmt_print 和 Fmt_fprint 调 用 Fmt_vfmt 时 ， 将 outc 作 为 put 函 数 ， 将 对 应 
于 标准 输出 的 流 或 给 定 的 流 作 为 相关 的 数据 : 


(static Functions 


161) = 
static int outc(int c, void *cl) { 


FILE *f = cl; 


return putc(c, f); 


(functions 


159) += 

void Fmt_print(const char *fmt, ...) { 
va_list ap; 
va_start(ap, fmt); 
Fmt_vfmt(outc, stdout, fmt, ap); 


va_end(ap); 
void Fmt_fprint(FILE *stream, const char *fmt, ...) { 
va_list ap; 


va_start(ap, fmt); 


Fmt_vfmt(outc, stream, fmt, ap); 


va_end(ap); 


Fmt_sfmti# H Fmt_vsfmt: 


(functions 


159) += 
int Fmt_sfmt(char *buf, int size, const char *fmt, ...) { 
va_list ap; 


int len; 


va_start(ap, fmt); 
len = Fmt_vsfmt(buf, size, fmt, ap); 
va_end(ap); 


return len; 


Fmt_vsfmtii] §Fmt_vfmth}, R% [— put KHAM — 748 [ad 2 PY 
指针 ， 该 结构 跟踪 了 需要 格式 化 输出 到 buf 的 字符 串 和 buf 能 够 容纳 的 字 
符 数 : 


(types 


162) = 
struct buf { 
char *buf; 


char *bp; 


int size; 


}; 


buf 和 size 实 际 上 是 复制 了 Fmt_vsfmt 的 名 称 类 似 的 参数 ， 而 bp 则 指向 buf 
中 输出 下 一 个 被 格式 化 字符 的 位 置 。Fmt_vsfmt 会 初始 化 该 结构 的 一 个 
局 部 变量 实例 ， 并 将 指向 该 实例 的 一 个 指针 传递 给 Fmt_vfmt: 


(functions 


159) += 

int Fmt_vsfmt(char *buf, int size, const char *fmt, 
va_list ap) { 
struct buf cl; 


assert(buf); 

assert(size > 0); 

assert(fmt); 

cl.buf = cl.bp = buf; 

cl.size = size; 
Fmt_vfmt(insert, &cl, fmt, ap); 
insert(0, &cl); 


return cl.bp - cl.buf - 1; 


上 述 对 Fmt_vfmt 的 调用 ， 内 部 又 调用 了 私有 函数 insert， 参 数 是 每 一 
个 需要 输出 的 字符 和 指 癌 Fmt_vsfmt 的 局 部 buf 结 构 实例 的 指针 。insert 会 
检查 是 否 有 空间 容纳 需要 输出 的 字符 ， 并 将 该 字符 存储 到 bp 字段 指向 的 
位 置 ， 并 将 bp 字段 加 1: 


(static Functions 


161) += 
static int insert(int c, void *cl) { 


struct buf *p = cl; 


if (p->bp >= p->buf + p->size) 
RAISE (Fmt_Overflow); 
*p->bp++ = c; 


return c; 


Fmt_string # Fmt_vstringA) C/E REET], AeA TAF BY put ex 
数 。Fmt_string 调 用 了 Fmt_vstring: 


(functions 


159) += 
char *Fmt_string(const char *fmt, ...) { 
char *str; 


va_list ap; 


assert(fmt); 

va_start(ap, fmt); 

str = Fmt_vstring(fmt, ap); 
va_end(ap); 


return str; 


Fmt_vstring 将 buf 结 构 实例 初始 化 为 一 个 可 容纳 256 个 字符 的 字符 
串 ， 并 将 执行 该 实例 的 指针 传递 给 Fmt_vfmt: 


(functions 


159) += 
char *Fmt_vstring(const char *fmt, va_list ap) { 


struct buf cl; 


assert(fmt); 

cl.size = 256; 

cl.buf = cl.bp = ALLOC(cl.size); 
Fmt_vfmt(append, &cl, fmt, ap); 
append(0, &cl); 


return RESIZE(cl.buf, cl.bp - cl.buf); 


append 类 似 于 Fmt_vsfmt 的 put， 只 是 它 会 在 必要 时 将 buf 的 容量 加 倍 ， 使 
之 能 够 容纳 格式 化 输出 的 字符 


[© 


(static functions 


161) += 
static int append(int c, void *cl) { 


struct buf *p = cl; 


if (p->bp >= p->buf + p->size) { 
RESIZE(p->buf, 2*p->size); 


p->bp = p->buf + p->size; 
p->size *= 2; 

} 

*p->bp++ = C; 


return c; 


当 Fmt_vstring 完 成 时 ，buf 字 段 指向 的 内 存 空 间 可 能 过 长 ， 这 也 是 
Fmt_vstring 调 用 RESIZE 释 放 过 多 空间 的 原因 。 


Fmt_vfmt 是 所 有 格式 化 函数 的 终点 。 它 会 解释 格式 哩 ， 并 对 每 个 格 
式 限定 符 调 用 适当 的 转换 函数 。 对 格式 串 中 的 其 他 字符 ， 它 调用 put 玉 
数 : 


(functions 


159) += 
void Fmt_vfmt(int put(int c, void *cl), void *cl, 
const char *fmt, va_list ap) { 
assert(put); 
assert(fmt); 
while (*fmt) 
it (time be "4. [| mE Se: 4") 
put((unsigned char)*fmt++, cl); 
else 


(format an argument 


164) 


<format an argument 164> 代 码 块 中 的 大 部 分 工作 ， 都 是 在 逐一 处 理 
各 个 标志 、 字 段 宽 度 和 精度 设置 ， 以 及 处 理 转换 限定 符 没有 对 应 的 转换 
函数 的 可 能 性 。 在 该 代码 块 中 (如 下 ) ，width 给 出 了 字段 宽度 ， 而 
precision 给 出 了 精度 。 


(format an argument 


164) = 
{ 
unsigned char c, flags[256]; 
int width = INT_MIN, precision = INT_MIN; 
memset(flags, '\O', sizeof flags); 


(get optional flags 


165) 


(get optional field width 


165) 


(get optional precision 


166) 
c = *fmt++, 
assert(cvt[c]); 


(*cvt[c])(c, &ap, put, cl, flags, width, precision); 


cvt 是 指向 转换 函数 的 指针 的 数组 ， 它 通过 格式 
中 需要 将 c 声 明 为 unsigned char， 


整数 。 


cvt 初 始 化 时 ， 


使 用 ASCII 编 码 : 


(data 


160) += 


static 


m 
a 
z 
g 
yi 
Pe 
7 
ji 
x 
ji 
2 
re 
7 
7 
Fe 
yi 


0- 7 

8- 15 
16- 23 
24- 31 
32- 39 
40- 47 
48- 55 
56- 63 
64- 71 
72- 79 
80- 87 
88- 95 
96-103 
104-111 
112-119 
120-127 


T cvt[256] 


*/ 0, 
*/ ©, 
3X 
*/ 
SS 
af 
i 
ue 
*/ 
a 
a a 
*/ 
*/ 
urd 


© 
~ ~ ~ ~ ~ 


~ 


~ ~ ~ ~ 


© © O O O O O O © O © 


~ 


*/ cvt_p, 


*/ cvt_x, 


= 


~ ~ ~ ~ ~ 


~ 


~ ~ ~ ~ ~ 


© © © O © O © O © © © © © 


~ 


~ ~ ~ ~ ~ ~ ~ 


~ 


~ ~ ~ ~ ~ ~ 


© © © O O O O O O O O O O © © © 


~ 


从 索引 


o 在 上 述 的 代码 块 


这 确保 了 将 *fmt 解 释 为 0 一 255 范 围 内 的 


~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ 


© Oo O O O O O O O © © © 


~ 


| 
© © © a oO © © © © © © © © © © © 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ ~ ~ ~ ~ ~ 


~ 


~ ~ ~ ~ 


| 
© 个 © © © © © © © © © © © © 


~ 


cvt_u, 


© 


| 
© © © —h © © © © © © © © © © © © 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


~ 


只 设置 了 对 应 默认 转换 限定 符 的 转换 函数 ， 假 定 


字符 


子 付 


Fmt_register 通 过 将 cvt 中 适当 的 元 素 设置 为 相应 的 函数 指针 ， 来 设置 
一 个 新 的 转换 函数 。 它 返回 该 元 素 的 原 值 : 


(functions 


159) += 
T Fmt_register(int code, T newcvt) { 


T old; 


assert(0 < code 

&& code < (int)(sizeof (cvt)/sizeof (cvt[0]))); 
old = cvt[code]; 
cvt[code] = newcvt; 


return old; 


扫描 转换 限定 符 的 代码 块 遵循 图 14-1 给 出 的 语法 ， 扫 描 过 程 中 会 逐 
次 对 fmt 加 1。 第 一 个 代码 块 处 理 标 志 : 


(data 


160) += 


char *Fmt_flags = "-+ 0"; 


(get optional flags 


165) = 
if (Fmt_flags) { 


unsigned char c = *fmt; 


for ( ; c && strchr(Fmt_flags, c); c = *++fmt) { 
assert(flags[c] < 255); 


flags[c]++; 


接 下 来 处 理 字 段 宽度 : 


(get optional field width 


165) = 
if (*fmt == '*' || isdigit(*fmt)) { 
int n; 


(n ~ next argument or scan digits 


宽度 或 精度 设置 中 都 可 能 出 现 星 号 ， 而 在 这 种 情况 下 下 一 个 整数 参数 提 
供 了 对 应 的 值 。 


(n ~ next argument or scan digits 


165) = 
if (*fmt == '*') { 
n = va_arg(ap, int); 


assert(n != INT_MIN); 


fmt++; 
} else 
for (n = 0; isdigit(*fmt); fmt++) { 
int d = *fmt - '0'; 
assert(n <= (INT_MAX - d)/10); 
n = 10*n + d; 
} 


如 该 代码 所 示 ， 在 参数 指定 了 宽度 或 精度 时 ， 其 值 不 能 为 INT_MIN， 该 
值 是 保留 的 ， 作 为 默认 值 。 在 宽度 或 精度 显 式 给 出 时 ， 它 不 能 大 于 
INT_ MAX， 这 等 效 于 约束 10 * n+ d<INT_MAX， 即 10*n+d 不 会 上 
溢 。 我 们 必须 在 不 导致 上 淤 的 情况 下 进行 该 测试 ， 这 也 是 在 上 述 的 断言 
中 将 约束 重 写 的 原因 。 


句点 表明 接 下 来 是 一 个 可 选 的 精度 设置 : 


(get optional precision 


166) 
if (*fmt == '.' && (*++fmt == '*' || isdigit(*fmt))) { 


int n; 


(n ~ next argument or scan digits 


165) 
precision = n; 


} 


请 注意 ， 句 点 如 果 没 有 后 接 星 号 或 数字 ， 那 么 将 处 理 以 及 解释 为 显 式 名 
略 的 精度 。 


g 


14.2.2 FRIES 


cvt SÆR A TASHIR KA, 14.1.2 TAH ° evt_dÆX} M F %d 
的 转换 函数 ， 在 格式 化 数字 的 转换 函数 中 具有 代表 性 。 它 会 获取 整数 参 
数 ， 将 其 转换 为 无 符号 整数 ， 并 在 局 部 缓冲 区 中 生成 适当 的 字符 串 ( 转 
换 从 最 高 有 效 位 开始 ) 。 它 接 下 来 调用 Fmt_putd 输 出 字符 串 。 


(conversion functions 


159) += 
static void cvt_d(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
int val = va_arg(*app, int); 
unsigned m; 


(declare 


buf and 


p, initialize 


p 166) 


if (val == INT_MIN) 


m = INT_MAX + 1U; 


else if (val < 0) 


m= -val; 


do 
*--p = m%10 + 'O'; 
while ((m /= 10) > 0); 
if (val < 0) 
a eo anen 
Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 


width, precision); 
(declare 
buf and 
p, initialize 
p 166) = 


char buf[43]; 


char *p = buf + sizeof buf; 


cvt_d 使 用 无 符号 算术 的 原因 ， 与 Atom_int 相 同 ， 请 参见 3.2 节 ， 其 中 还 解 
释 了 为 何 buf 有 43 个 字符 。 


(functions 


159) += 


void Fmt_putd(const char *str, int len, 


int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


int sign; 


assert(str); 
assert(len >= 0); 
assert(flags); 


(normalize 
width and 


flags 159) 


(compute the sign 


167) 


{ (emit 
str justified in 


width 167) } 
} 


FEmt_putd 必 须 按 照 fags、width 和 precision 的 规定 输出 str 中 的 字符 串 。 如 
宁 精 度 已 经 给 出 ， 那 么 它 指定 了 必须 输出 的 最 小 位 数 。 必 须 输 出 精度 指 
定 的 那么 多 位 数 ， 这 可 能 需要 在 前 部 补 0。Fmt_putd 首 移 确定 是 否 需 
输出 符号 或 在 前 部 添加 空格 ， 然 后 将 sign 设 置 给 该 字符 : 


(compute the sign 


167) = 

if (len > 0 && (*str == '-' || *str == '+')) { 
Sign = *str+t; 
len--; 

} else if (flags['+']) 
sign = '+'; 

else if (flags[' ']) 
sign = ' '; 

else 


sign = 0; 


<compute the sign 167> RBR FiA WAKA, KMT RaT Et 
标志 的 规则 。 转 换 结果 的 长 度 n， 取 决 于 精度 、 被 转换 的 值 和 符号 : 


(emit 
str justified in 


width 167) = 
int n; 
if (precision < 0) 
precision = 1; 
if (len < precision) 
n = precision; 
else if (precision == 0 && len == 1 && str[0] == 'O') 


n= 0; 


else 
n = len; 
if (sign) 


n++; 


n 被 赋值 为 需要 输出 的 字符 数 ， 该 代码 还 处 理 了 以 精度 0 对 值 0 进 行 转换 
的 特例 ， 在 这 种 情况 下 转换 结 采 没有 输出 字符 。 


如 果 输 出 是 左 对 齐 的 ， 那 么 FEmt_putd 现 在 可 以 输出 符号 ， 如 果 输 出 
征 右 对 齐 的 ， 需 要 前 部 补 0， 那 么 现在 可 以 输出 符号 和 填充 字符 ， 而 如 
果 输 出 是 右 对 齐 ， 需 要 在 前 部 添加 空格 ， 那 么 可 以 输出 填充 子 符 和 符 
=e 


(emit 


str justified in 


width 167) += 
if (flags['-']) { 


(emit the sign 


168) 
} else if (flags['0']) { 


(emit the sign 


168) 
pad(width - n, 'O'); 
} else { 


pad(width - n, ' '); 


(emit the sign 


168) 


(emit the sign 


168) = 
if (sign) 


put(sign, cl); 


Fmt_putd 最 后 可 以 输出 转换 结果 ， 这 可 能 包括 前 部 添加 的 0 (为 
足 精 度 要 求 ) ， 以 及 填充 字符 (如 果 输 出 是 左 对 齐 的 ) : 


(emit 


str justified in 


width 167) += 
pad(precision - len, '0'); 


(emit 


str[0..len-1] 159) 
if (flags['-']) 
pad(width - n, ' '); 


VHS 


{两 


cvt_u 比 cvt_d 人 简单 ， 但 它 可 以 使 用 Fmt_putd 输 出 转换 结果 的 所 有 机 
制 。 它 将 输出 下 一 个 无 符号 整数 的 十 进 制 表 示 : 


(conversion functions 


159) += 
static void cvt_u(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
unsigned m = va_arg(*app, unsigned); 


(declare 
buf and 
p, initialize 
p 166) 
do 
*--p = m%10 + '0'; 
while ((m /= 10) > 0); 


Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 


width, precision); 


八进制 和 十 六 进 制 转换 类 似 于 无 符号 十 进 制 转换 ， 但 输出 的 基 不 同 ， 这 
又 简 化 了 转换 的 过 程 。 


(conversion Functions 


159) += 


static void cvt_o(int code, va_list *app, 


int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, 


unsigned m = va_arg(*app, unsigned); 


(declare 


buf and 


p, initialize 


p 166) 


do 


*--p = (m&0x7) + 'O'; 
while ((m >>= 3) != 0); 


Fmt_putd(p, (buf + sizeof buf) - 


width, precision); 


static void cvt_x(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, 


unsigned m = va_arg(*app, unsigned); 


(declare 


put, 


int precision) { 


cl, flags, 


int precision) { 


buf and 
p, initialize 
p 166) 
(emit 
m in hexadecimal 


169) 
} 


(emit 
m in hexadecimal 


169) = 
do 
*--p = "0123456789abcdef" [m&0xf] ; 
while ((m >>= 4) != 0); 
Fmt_putd(p, (buf + sizeof buf) - p, put, cl, flags, 


width, precision); 


cvt_p 将 指针 作为 十 六 进 制 数 输出 。 精 度 和 -以 外 的 所 有 标志 都 忽 
略 。 人 参数 被 解释 为 指针 ， 它 首先 被 转换 为 unsigned long， 因 为 unsigned 的 


位 宽 可 能 不 足以 容纳 指针 是 o 
(conversion functions 
159) += 
static void cvt_p(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
unsigned long m = (unsigned long)va_arg(*app, void*); 
(declare 
buf and 
p, initialize 


p 166) 


precision = INT_MIN; 


(emit 


m in hexadecimal 


169) 
} 


cvt_c 古 与 %c 相 关 的 转换 函数 ， 它 格式 化 输出 一 个 字符 ， 左 对 


右 对 齐 width 个 字符 。 它 忽略 精度 和 其 他 标志 。 


oT. 


或 


(conversion functions 


159) += 
static void cvt_c(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


(normalize 


width 160) 
if (!flags['-']) 
pad(width - 1, ' '); 
put((unsigned char)va_arg(*app, int), cl); 
if ( flags['-']) 
pad(width - 1, ' '); 
} 


cvt_c 获 取 的 参数 是 一 个 整数 而 不 是 字符 ， 因 为 通过 参数 列表 的 可 变 部 分 
传递 的 字符 参数 ， 会 经 由 默认 的 参数 类 型 “提升 ?而 转换 为 整数 进行 传 
递 。cvt_c 将 由 此 得 到 的 整数 转换 unsigned char， 这 样 有 符号 、 无 符号 和 
普通 的 字符 都 能 够 以 同样 的 方式 输出 。 


将 浮 点 值 精确 地 转换 为 十 进 制 表 示 的 过 程 ， 很 难以 与 机 器 无 天 的 方 
式 完 成 。 与 机 器 相关 的 算法 更 快速 且 准 确 ， 因 此 与 转换 限定 符 e、f 和 g 关 
联 的 转换 函数 使 用 了 下 述 代 码 块 : 


(format a 


double argument into 


buf 170) = 

{ 
static char fmt[] = "%.dd?"; 
assert(precision <= 99); 
fmt[4] = code; 
fmt[3] = precision%10 + '0'; 
fmt[2] = (precision/10)%10 + 'O'; 
sprintf(buf, fmt, va_arg(*app, double)); 

} 


将 val 的 绝对 值 转换 到 buf 中 ， 接 下 来 输出 buf 。 


浮 点 转换 限定 符 之 间 的 差别 在 于 ， 它 们 格式 化 浮 点 值 各 部 分 的 方式 
不 同 。 限 定 符 %.99f 的 输出 最 长 ， 可 能 需要 
DBL_MAX_10_EXP+1+1+99+1 ^ 字 符 ° DBL MAX 10_EXP 和 
DBL _ MAX 定义 在 标准 头 文件 float.h 中 。DBL _ MAX 是 可 以 表示 为 double 


的 值 中 最 大 的 值 ， 而 DBL_MAX_10_EXP 是 logjo DBL_MAX, fl, Ez 
可 以 通过 double 表 示 的 最 大 的 十 进 制 指数 值 。 对 应 IEEE 754 格 式 下 的 64 
位 double 值 ，DBL _ MAX 是 1.797693*10308 ， 而 DBL_MAX _10_EXP 是 
308。 对 fmt[2] 和 fmt[3] 的 赋值 假定 使 用 了 ASCII 码 。 


因而 ， 如 果 用 转换 限定 符 %.99f 转 换 DBL_MAX， 结 果 的 数位 情况 
fe: 小 数 点 之 前 可 能 有 DBL_MAX_10_EXP+1 个 数位 、 小 数 点 、 小 数 点 
之 后 可 能 有 99 个 数位 、 结 束 的 0 字符 。 将 精度 限制 为 9， 可 以 限制 用 于 
容纳 转换 结果 的 缓冲 区 的 大 小 ， 使 得 缓冲 区 的 最 大 长 度 在 编译 时 已 知 。 
其 他 转换 限定 符 %e 和 %g 的 转换 结果 ， 比 %f 的 结果 字符 数 要 少 。cvt_f 处 
理 所 有 三 种 格式 码 : 


(conversion functions 


159) += 
static void cvt_f(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


char buf[DBL_MAX_10_EXP+1+1+99+1]; 


if (precision < 0) 
precision = 6; 

if (code == 'g' && precision == 0) 
precision = 1; 


(format a 
double argument into 
buf 170) 


Fmt_putd(buf, strlen(buf), put, cl, flags, 


width, precision); 


143 扩展 阅读 


[Plauger，1992] 描 述 了 C 库 中 printft 一 族 输出 函数 的 实现 ， 包 括 字 符 
串 与 浮 点 值 之 间 双 回转 换 的 砌 层 代 码 。 他 的 代码 还 说 明了 如 何 实现 其 他 
printf 风 格 的 格式 化 标志 和 格式 码 。 


[Hennessy and Patterson, 1994] — E }394.8 T fig ult [IEEE 754 浮 点 标 
准 ， 以 及 浮 点 加 法 和 乘法 的 实现 。[Goldberg，1991] 综 述 了 程序 员 最 关 
心 的 浮 点 运算 性 质 。 


浮 点 转换 已 经 实现 过 多 次 ， 但 转换 得 不 精确 或 速度 太 慢 ， 很 容易 使 
得 这 些 转换 变 为 拙劣 的 工作 。 对 这 些 转换 正确 性 的 判断 测试 是 : 如 果 给 
定 浮 点 值 x， 输 出 转换 由 x 生 成 一 个 字符 串 ， 输 入 转换 从 该 字符 串 重 新 创 
建 一 个 浮 点 值 y， 那 么 要 求 x 和 y“ 按 位 ”相等 〈 即 x 和 y 的 二 进 制 表示 是 完 
全 相同 的 ) 。[Clinger，1990] 描 述 了 如 何 精确 地 进行 输入 转换 ， 该 论文 
还 阐明 ， 对 某 些 x， 这 种 转换 需要 任意 精度 算术 的 文 持 。[Steele and 
White，1990] 摘 述 了 如 何 进行 精确 的 输出 转换 。 


144 习题 


14.1 ”Fmt_vstring 使 用 RESIZE 来 释放 它 返 回 的 字符 串 中 不 使 用 的 部 
分 。 设 计 一 种 方法 ， 仪 在 释放 空间 可 以 带 来 回报 时 进行 释放 操作 ， 即 被 
释放 的 空间 值得 上 释放 操作 的 代价 。 


14.2 ”使 用 [Steele and White, ，1990] 中 描述 的 算法 实现 e、f 和 g 转 
换 。 


14.3 ”编写 一 个 转换 函数 ， 从 下 一 个 整数 参数 获取 转换 限定 人 符 ， 并 
将 该 函数 关联 到 @。 例 如 ， 


Fmt_string("The offending value is %@\n", x.format, x.value); 


将 根据 x.format 中 的 格式 码 来 格式 化 x.value 。 


14.4 编写 一 个 转换 函数 ， 将 一 个 Bit T 中 的 元 素 以 整数 序列 的 形式 
输出 ， 其 中 连续 的 1 输出 为 范围 表示 ， 例 如 ，1 32-45 68 70-71。 


[1] 位 宽 是 体系 结构 /编译 器 高 度 相 关 的 ， 目 前 的 主流 编译 天 


gcc/icc/msvc 中 , 32 位 HR BE 下 ， sizeof(int)==sizeof 
(long)==sizeof(void*)==4 , 64 fff HE F, sizeof(int)==sizeof(long)==4 , 
sizeof(void*)==sizeof (long long)==8 ° ait 


第 15 章 ”低级 字符 串 


C 语 言 本 来 并 非 处 理 字符 串 的 语言 ， 但 它 确实 包含 了 操纵 字符 数组 
的 功能 ， 这 种 字符 数组 通常 称 作 了 字符 串 。 按 照 惯 例 ， 一 个 N 个 字符 的 字 
符 串 是 一 个 包含 N+1 字 符 的 数组 ， 最 后 一 个 字符 是 0 字符 ， 即 其 值 为 0。 


该 语言 本 身 只 有 两 个 特性 有 助 于 处 理 字符 串 。 指 向 字符 的 指针 可 用 
于 遍历 字符 数组 ， 而 字符 串 常数 (iteral， 指 字面 常数 ， 本 章 中 均 译 为 常 
数 ) 可 用 于 初始 化 字符 数组 。 例 如 ， 


char msg[] = "File not found"; 
是 对 以 下 语句 的 简写 : 


char msg[] = { "Fl, Palin gel ase ‘e', 1 es 'o', Ey 


1 at ie 'o', 'u', 'n', md i INO }; 


Wie, FRR QUE) 的 类 型 是 int， 而 不 是 char， 这 也 解释 了 为 


{" sizeof 'F'S Fsizeof(int) ° 
字符 串 常数 还 可 以 代表 初始 化 为 给 定 字 符 串 的 字符 数组 。 例 如 ， 


char *msg = "File not found"; 


JÈ 


FAT 


static char t376[] = "File not found"; 


char *msg = t376; 


其 中 t376 是 编译 需 生 成 的 一 个 内 部 变量 名 。 


在 可 以 使 用 只 读数 组 名 称 的 任何 位 置 ， 都 可 以 使 用 字符 串 常数 。 例 
如 ，Fmt 的 cvt_x 在 一 个 表达 式 中 使 用 了 一 个 字符 串 常 数 : 


do 
*--p = "0123456789abcdef"[m&0xf]; 
while ((m >>= 4) != 0); 


该 赋值 等 效 于 下 述 更 详细 的 语句 : 


{ 
static char digits[] = "0123456789abcdef"; 
*p++ = digits[m&Oxf]; 

} 


这 里 digits 是 编译 器 生成 的 变量 名 。 


C 库 包含 了 一 组 操纵 0 结尾 字符 串 的 钞 数 。 这 些 函 数 定义 在 标准 头 文 
件 string.h 中 ， 可 以 复制 、 搜 索 、 扫 描 、 比 较 和 转换 字符 串 。 其 中 strcat 大 
具 代 表 性 : 


char *strcat(char *dst, const char *src) 


该 函数 将 字符 串 src 追 加 到 dst 的 末端 ， 即 ， 它 将 src 字 符 串 中 包括 结尾 0 字 
符 在 内 的 所 有 字符 ， 复 制 到 dst 中 从 0 字符 开始 的 连续 内 存 区 域 中 。 


strcat 说 明了 string.h 中 定义 的 各 个 函数 的 两 个 缺点 。 首 先 ， 客 户 程 序 
必须 为 结果 分 配 空间 ， 如 strcat 中 的 dst。 其 次 ， 也 是 最 重要 的 ， 所 有 这 些 
函数 都 是 不 安全 的 ， 其 中 任何 一 个 函数 都 无 法 检查 结果 字符 串 是 否 包 含 
足够 的 空间 。 如 果 dst 没 有 足够 的 空间 容纳 来 和 目 src 的 各 个 字符 ，strcat 会 


将 这 些 字符 洲 出 到 未 分 配 的 空间 或 用 于 其 他 用 途 的 空间 中 。 其 中 一 些 画 
数 ， 如 strncat， 有 额外 的 参数 来 限制 复制 到 结果 的 字符 数 ， 这 有 助 于 防 
止 此 类 错误 ， 但 分 配 错误 仍然 可 能 发 生 。 


本 章 描述 的 Str 接 口中 的 函数 ， 可 以 避免 这 些 缺 点 ， 并 提供 了 一 个 方 
便 的 方法 来 操作 其 字符 串 参 数 的 子 串 。 这 些 函 数 比 string.h 中 的 那些 更 为 
安全 ， 因 为 大 部 分 Str 函 数 会 为 其 结果 分 配 空间 。 与 这 些 分 配 操作 相关 的 
成 本 ， 惑 是 为 安全 性 付出 的 代价 。 


通 解 ， 这 些 分 配 操作 时 无 论 如何 都 需要 进行 的 ， 因 为 当 stringh 函 数 
的 结果 的 长 度 取 决 于 计算 的 结果 时 ， 客 户 程序 必须 为 结果 分 配 大 小 适当 
的 空间 。 类 似 于 string.h 函 数 ，Str 函 数 的 客户 程序 仍然 必须 释放 返回 的 结 
果 。 下 一 草 描 述 的 Text 接 口 会 导出 另 一 组 字符 串 处 理 函 数 ， 可 以 避免 Str 
函数 的 一 些 分 配 开 销 。 


15.1 接口 


(str.h 


= 
#ifndef STR_INCLUDED 
#define STR _INCLUDED 


#include <stdarg.h> 


(exported functions 


174) 


#undef T 


#endif 


Str 接 口中 的 函数 的 所 有 字符 串 参 数 ， 都 通过 一 个 指 癌 0 结尾 字符 数 
组 的 指针 和 该 数组 中 的 位 置 给 出 。 类 似 于 Ring 中 的 位 置 ， 字 符 串 位 置 标 
识 了 各 个 字符 之 间 的 位 置 ， 以 及 最 后 一 个 非 0 字 符 之 后 的 位 置 。 正 数位 
置 指定 了 从 字符 串 左 端 起 的 位 置 ， 位 置 1 是 第 一 个 字符 左 侧 的 位 置 。 非 
正 数 位 置 指定 了 从 字符 串 右 侧 起 的 位 置 ， 位 置 0 是 最 后 一 个 字符 右 侧 的 
位 置 。 例 如 ， 图 15-1 给 出 了 字符 串 Interface 中 的 各 个 位 置 。 
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图 15-1 ”Interface 中 各 个 字符 的 位 置 
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字符 串 s 中 的 两 个 位 置 I 和 j 指 定 了 两 个 位 置 之 间 的 子囊 ， 记 作 s[i:j]。 
如 果 s 指 向 字符 串 Interface， 那 么 s[-4:0] 是 子 串 face。 这 些 位 置 可 以 按 任意 
顺序 给 出 : s[0:-4] 同 样 指 定 了 子 串 face。 子 串 可 以 为 NULL ，s[3:3] 和 
s[3:-7] 都 指定 了 Interface 中 n 和 t 之 间 的 NULL 子 串 。 对 任何 有 效 位 置 i， 
s[i:i+1] 总 是 i 右 侧 的 字符 (最 右 侧 的 位 置 除外 ) 。 


字符 索引 是 另 一 种 指定 子 串 的 方法 ， 这 种 方法 看 起 来 更 为 目 然 ， 但 
却 有 不 利之 处 。 在 用 索引 指定 子 串 时 ， 顺 序 很 重要 。 例 如 ， 字符 串 
Interface 中 索引 值 从 0 到 9 〈 含 ) 。 如 果 用 两 个 索引 指定 子 串 ， 子 串 从 第 


一 个 索引 之 后 开始 、 在 第 二 个 索引 之 前 结束 ， 那 么 s[1..6] 指 定 了 子 串 
terf。 但 该 约定 必须 允许 使 用 0 字符 的 索引 ， 才 能 用 s[4..9] 指 定子 串 face， 
而 且 无 法 指定 字符 串 起 点 处 的 NULL 子 串 。 改 变 该 约定 ， 使 得 子 串 结 
于 第 二 个 索引 之 后 ， 那 就 无 法 指定 NULL 子 串 。 其 他 使 用 负数 索引 的 约 
定 也 可 以 使 用 ， 但 与 这 里 的 位 置 约定 相 比 ， 更 显 策 拙 。 H 


位 置 比 字 符 索 引 要 好 ， 因 为 它们 避免 了 令 人 迷惑 的 边界 情况 。 而 且 
非 正 数位 置 可 以 在 不 知道 字符 串 长 度 的 情况 下 来 访问 字符 串 的 尾部 向 o 


Str 接 口 导 出 的 函数 可 以 创建 并 返回 0 结尾 字符 串 ， 且 返回 有 关 其 中 
字符 串 和 位 置 的 信息 。 创 建 字符 串 的 函数 是 : 


(exported functions 


174) = 

extern char *Str_sub(const char *s, int i, int j); 

extern char *Str_dup(const char *s, int i, int j, int n); 

extern char *Str_cat(const char *si, int i1, int ji, 
const char *s2, int 12, int j2); 

extern char *Str_catv(const char *s, ...); 

extern char *Str_reverse(const char *s, int i, int j); 

extern char *Str_map(const char *s, int i, int j, 


const char *from, const char *to); 


所 有 这 些 函 数 都 会 为 结果 分 配 空间 ， 它 们 都 可 能 引发 Mem_Failed 异 名 ° 
向 该 接口 中 任何 函数 传递 NULL 字 符 串 指针 都 是 已 检查 的 运行 时 错误 
(下 文 对 Str_catv 和 Str_map 详 述 的 情况 除外 ) 。 


Str_sub 退 回 s[ij]， 它 是 s 中 位 于 位 置 i 利 j 之 间 的 子 串 。 例 如 ， 以 下 调 
用 


Str_sub("Interface", 6, 10) 
Str_sub("Interface", 6, 0) 
Str_sub("Interface", -4, 10) 


Str_sub("Interface", -4, 0) 


都 返回 face。 位 置 可 以 按 任意 顺序 给 出 。 向 该 接口 中 任何 函数 传递 的 
未 能 指定 s 中 的 一 个 子 串 ， 都 是 已 检查 的 运行 时 错误 。 


Str_dup 返 回 一 个 字符 串 ， 该 字符 串 是 s[i:j] 的 n 个 副本 。 传 递 负 的 n 
值 ， 是 一 个 已 检查 的 运行 时 错误 。Str_dup 通 常用 于 复制 一 个 字符 串 ， 例 
如 ，Str_dup("Interface", 1, 0, TD) 返回 Interface 的 一 个 副本 。 请 注意 ， 使 用 
位 置 1 和 0， 即 指定 了 Interface 整 个 字符 串 。 


Str_cat 返 回 s1[i1:j1 和 s2[i2:j2] 两 个 子 串 连接 构成 的 字符 串 ， 即 ， 该 
字符 串 首 移 包 含 s1[i1:j 中 的 所 有 字符 ， 后 接 s2[i2:j2] 中 的 所 有 字符 。 
Str_catv 与 之 类 似 ， 其 参数 为 0 或 多 个 三 元 组 ， 三 元 组 指定 了 一 个 字 
符 串 和 两 个 位 置 ， 芳 数 返回 所 有 这 些 子 串 连 接 构 成 的 字符 串 。 参 数列 表 
结束 于 NULL 指 针 参 数 。 例 如 ， 


Str_catv("Interface", -4, 0, " plant", 1, ©, NULL) 
返回 字符 串 face plant ° 


Str_reverse 返 回 s[ij] 中 字符 以 与 其 出 现在 s 中 的 反 序 所 构成 的 字符 
$ 。 


Str_map 返 回 s[ij 中 字符 按照 fom 和 to 映射 得 到 的 字符 所 构成 的 字符 
串 。 对 s[i:j] 中 的 每 个 字符 来 说 ， 如 果 其 出 现在 from 中 ， 则 映 喘 为 to 中 的 
对 应 字符 。 不 出 现在 from 中 的 字符 映射 到 本 喘 。 例 如 ， 


Str_map(s, 1, 0, “ABCDEFGHIJKLMNOPQRSTUVWXYZ", 


"abcdefghijkilmnopqrstuvwxyz" ) 
Bigs TRA, PAS FEAR ANS o 


如 果 from 和 to 都 是 NULL， 则 使 用 最 近 一 次 调用 Str_map 时 指定 的 映 
射 。 如 果 s 是 NULL， 则 忽略 i 和 jj，from 和 to 只 用 于 建立 默认 映射 ， 
Str_map 将 返回 NULL 。 


以 下 情况 是 已 检查 的 运行 时 错误 : from 和 to 中 有 且 仅 有 一 个 为 
NULL， 非 NULL 的 from 和 to 字符 串 长 度 不 同 ，s、from 和 和 to 都 是 NULL， 
第 一 次 调用 Str_map 时 from 和 to 都 是 NULL ° 


Str 接 口中 其 余 的 函数 ， 用 于 返回 字符 捉 中 有 关 字 符 串 或 位 置 的 信 
轧 ， 这 些 函 数 都 不 分 配 空间 。 


(exported functions 


174) += 

extern int Str_pos(const char *s, int i); 

extern int Str_len(const char *s, int i, int j); 
extern int Str_cmp(const char *s1, int il, int j1, 


const char *s2, int 12, int j2); 


Str_posiR DY hy F siJI ERME ° IRB ae AY DO va FS 
换 为 索引 ， 因 此 在 需要 索引 时 通常 使 用 Str_pos。 例 如 ， 如 果 s 指 向 字 符 


= Interface , 
printf("%s\n", &s[Str_pos(s, -4)-1]) 
将 输出 face ° 


Str_len 返 回 s[] 中 字符 的 数目 。 


Str_cmp 根 据 s1[i1:j1] 与 s2[i2:j2] 的 比较 结果 ， 对 小 于 、 等 于 、 大 于 三 
种 情形 分 别 返 回 负 值 、0、 正 值 。 


以 下 函数 搜索 字符 第， 碍 找 字 符 及 其 他 字符 哩 。 在 搜索 成 功 时 ， 这 
些 函 数 返回 反映 搜索 结 采 的 正 数 位 置 ， 在 搜索 失败 时 ， 它 们 返回 0。 画 
数 名 包含 r 时 ， 搜 索 从 其 参数 字符 串 的 右 侧 开始 ， 其 他 函数 搜索 时 从 左 
侧 开 始 。 


(exported functions 


174) += 
extern int Str_chr (const char *s, int 1, int j, int c); 
extern int Str_rchr (const char *s, int i, int j, int c); 
extern int Str_upto (const char *s, int i, int j, 
const char *set); 
extern int Str_rupto(const char *s, int i, int j, 
const char *set); 
extern int Str_find (const char *s, int i, int j, 
const char *str); 
extern int Str_rfind(const char *s, int i, int j, 


const char *str); 


Str_chr 和 Str_rchr 分 别 从 s[i:j] 的 最 左 侧 和 最 右 侧 开 始 搜 索 字 符 c， 并 返回 s 
中 该 字符 之 前 的 位 置 ， 如 果 s[i:j] 不 包含 c 则 返回 0。 


Str_upto 和 Str_rupto 分 别 从 s[i:j] 的 最 左 侧 和 最 右 侧 开始 搜索 set 中 任意 
字符 ， 并 返回 s 中 该 字符 之 前 的 位 置 ， 如 果 s[i:j] 不 包含 set 中 任意 字符 ， 
那么 将 返回 0。 向 这 些 函 数 传 递 的 set 为 NULL ， 则 造成 已 检查 的 运行 时 错 
误 。 


Str_find 和 Str_rfind 分 别 从 s[ij] 的 最 左 侧 和 最 右 侧 开始 搜索 字符 串 
str， 并 返回 s 中 该 子 串 之 前 的 位 置 ， 如 果 s[i:j] 不 包含 str 则 返回 0。 辐 这 些 
函数 传递 的 str 为 NULL， 则 造成 已 检查 的 运行 时 错误 。 


以 下 函数 


(exported functions 


174) += 

extern int Str_any(const char *s, int i, 
const char *set); 

extern int Str_many(const char *s, int i, int j, 
const char *set); 

extern int Str_rmany(const char *s, int i, int j, 
const char *set); 

extern int Str_match(const char *s, int i, int j, 
const char *str); 

extern int Str_rmatch(const char *s, int i, int j, 


const char *str); 


将 遍历 子 串 ， 它 们 返回 匹配 的 子 串 之 后 或 之 前 的 正 数位 置 。 


如 果 字 符 s[i:i+1] 出 现在 set 中 ，Str_any 返 回 s 中 该 字符 之 后 的 正 数位 
置 ， 人 否则 返回 0。 


Str_many 从 s[i:j 开 头 处 查找 由 set 中 一 个 或 多 个 字符 构成 的 连续 序 
列 ， 并 返回 s 中 该 序列 之 后 的 正 数 位 置 ， 如 果 s[ij] 并 不 从 set 中 的 某 个 字 
符 开始 ， 那 么 将 返回 0。Str_rmany 从 s[i:j] 末 端 查找 set 中 一 个 或 多 个 字符 
构成 的 连续 序列 ， 并 返回 s 中 该 序列 之 前 的 正 数位 置 ， 如 果 s[i:j] 并 不 结束 
于 set 中 的 某 个 字符 ， 将 返回 90。 传递 给 Str_any、Str_many 或 Str_rmany 的 
set 为 NULL， 是 已 检查 的 运行 时 错误 。 


Str_match 从 s[i:j] 开 头 开始 查找 sttr， 并 返回 s 中 该 子 串 之 后 的 正 数 位 
置 ， 如 果 s[i:j] 起 始 处 不 是 sttr， 则 返回 0。Str_rmatch 从 s[i:j] 末 尾 来 查找 
str， 并 返回 s 中 该 子 串 之 前 的 正 数 位 置 ， 如 果 s[i:j] 不 结束 于 str， 则 返回 
0。 问 Str_match 或 Str_rmatch 传 递 的 str 为 NULL， 是 已 检查 的 运行 时 错 
误 。 


Str_rchr 、Str_rupto 和 Str_rfind 从 其 参数 字符 串 的 右 端 开始 搜索 ， 但 
返回 其 搜索 到 的 字符 /字符 串 左 侧 的 位 置 。 例 如 ， 以 下 调用 


Str_find ("The rain in Spain", 1, 0, "rain") 


Str_rfind("The rain in Spain", 1, 0, "rain") 


都 返回 5， 这 是 因为 rain 在 其 第 一 个 参数 中 只 出 现 一 次 。 以 下 调用 


Str_find ("The rain in Spain", 1, ©, "in") 


Str_rfind("The rain in Spain", 1, ©, "in") 


分 别 返 回 7 和 16， 因 为 in 在 第 一 个 参数 中 出 现 了 三 次 。 


Str_many 和 Str_match 在 字符 串 中 从 左 到 右 涡 历 ， 并 返回 其 查找 到 的 
字符 之 后 的 位 置 。Str_rmany 和 Str_rmatch 从 右 到 左 遍 历 ， 它 们 返回 查找 
到 的 字符 之 前 的 位 置 。 例 如 ， 


Str_sub(name, 1, Str_rmany(name, 1, 0, " \t")) 


将 返回 name 的 一 个 副本 ， 并 去 除 尾部 的 空格 和 制 表 符 (如 果 有 的 话 ) 。 
函数 basename 给 出 对 这 种 惯例 的 另 一 种 典型 用 法 。basename 接 受 一 个 
Unix 的 路 径 名 ， 返 回去 除 目 孙 信息 和 特定 后 组 的 文件 和 名， 如 下 例 所 示 。 


basename("/usr/jenny/main.c", 1, ©, ".c") main 
basename("../src/main.c", Deeps E) main.c 
basename( "main.c", 1, 0, "c") main 
basename( "main.c", 1, ©, ".0bj") main.c 
basename("examples/wfmain.c", 1, ©, ".main.c") wf 


basename 使 用 Str_rchr 来 查找 最 右 侧 的 和 斜 线 ， 使 用 Str_rmatch 来 定位 后 


级 。 


char *basename(char *path, int i, int j, 
const char *suffix) { 
i = Str_rchr(path, i, j, '/'); 
j = Str_rmatch(path, i + 1, ©, suffix); 
return Str_dup(path, i + 1, j, 1); 
} 


Str_rchr 的 返回 值 赋值 给 ;， 如 采 能 找到 和 斜 线 ， 这 征 最 石 侧 斜 线 之 前 的 位 
置 ， 否 则 为 0。 在 这 两 种 情况 下 ， 文 件 名 都 起 始 于 位 置 it1。Str_match 会 
检查 文件 名 ， 并 返回 后 缀 之 前 或 文件 名 之 后 的 位 置 。 同 样 ， 在 这 两 种 情 


况 下 ，j 都 设置 为 文件 名 之 后 的 位 置 。str_dup 返 回 path 中 it+1 和 j 之 间 的 子 
$o 


DA F IZN 
(exported functions 
174) += 
extern void Str_fmt(int code, va_list *app, 


int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision); 


we TTR, A emt PI RA, ATHE 
化 子 串 。 它 消耗 三 个 参数 ， 一 个 字符 串 指 针 和 两 个 位 置 ， 它 按照 Fmt 
中 %s 指 定 的 风格 来 格式 化 子 串 。 了 字符 串 指 针 、app 或 flags 是 NULL， 则 造 
成 已 检查 的 运行 时 错误 。 


例如 ， 如 果 Str_fmt 通 过 下 列 调用 关联 到 格式 码 S: 
Fmt_register('S', Str_fmt) 
那么 
Fmt_print("%10S\n", "Interface", -4, 0) 


将 输出 face， 这 里 _ 表 示 空 格 。 


15.2 ”例子 : 输出 标识 符 


下 面 给 出 的 例子 程序 可 以 输出 其 输入 中 的 C 语 言 关 键 字 和 标识 符 ， 
该 程序 说 明了 Str_fmt 的 用 法 ， 以 及 检查 子 符 串 是 否 包含 某 些 字符 或 子 串 
的 其 他 函数 的 用 法 。 


(ids.c 


= 
#include <stdlib.h> 
#include <stdio.h> 
#include "fmt.h" 


#include "str.h" 


int main(int argc, char *argv[]) { 
char line[512]; 
static char set[] = "0123456789_" 
"abcdefghijkilmnopqrstuvwxyz" 


"ABCDEFGHI JKLMNOPQRSTUVWXYZ" ; 


Fmt_register('S', Str_fmt); 
while (fgets(line, sizeof line, stdin) != NULL) { 
int i = 1, j; 
while ((i = Str_upto(line, i, 0, &set[10])) > O){ 
j = Str_many(line, i, ©, set); 
Fmt_print("%S\n", line, i, j); 


i= j; 


return EXIT_SUCCESS; 
} 


内 层 的 while 循 环 扫描 line[i:0] 查 找 下 一 个 标识 符 ，i 从 1 开始 。Str_upto 返 
回 line [i:0] 下 一 个 下 划 线 或 字母 在 line 中 的 位 置 ， 该 位 置 被 赋值 给 i。 在 下 
划 线 或 字母 之 后 ， 连 续 的 数字 、 下 划 线 和 字母 都 属于 同一 标识 符 ， 而 
Str_many 将 返回 该 标识 符 之 后 的 位 置 。 因 而 ，i 和 j 标 识 了 扫描 到 的 下 一 
个 标识 符 ，Fmt_print 用 Str_fmt 和 输出 该 标识 符 ， 它 关联 到 格式 码 S$。 将 j 赋 
值 给 i， 使 得 while 循 环 的 下 一 次 迭代 查找 下 一 个 标识 符 。 在 line 包 含 上 面 
的 main 函 数 声 明 时 ， 传 递 给 Fmt_print 的 i 和 j 如 图 15-2 所 示 。 


j 4 9 13 18 24 30 

. . . A 

int main(int argc, char *argv []) { 
i 1 5 10 14 20 6 


图 15-2 ”各 字符 的 位 置 


该 程序 中 没有 内 存 分 配 。 在 此 类 应 用 程序 中 使 用 位 置 通常 可 以 避免 
内 存 分 配 。 


15.3 ”实现 


(str.c 


y= 
#include <string.h> 
#include <limits.h> 


#include "assert.h" 


#include "fmt.h" 
#include "str.h" 
#include "mem.h" 


(macros 


179) 


(functions 


180) 


SEE Ws 2h BA fi SA | ZB RIPE, AAKA 8 | RV 
问 实 际 的 字符 。 正 数位 置 i 回 侧 字 符 的 索引 征 i- 1。 负 数位 置 i 石 侧 字 符 的 
索引 是 i + lan，len 是 字符 串 中 字符 的 数目 。 下 列 安 


(macros 


179) = 


#define idx(i, len 


) (G2 


) <= 0? (i 


) + (len 


) : (i 


) - 1) 


封装 了 以 上 的 定义 ; 给 出 长 度 为 lan 的 字符 串 中 的 位 置 1，idx(i, len) 就 是 i 
右 侧 字 符 的 索引 。 


Str 接 口中 的 函数 将 其 位 置 转 换 为 索引 ， 然 后 使 用 索引 访问 字符 串 。 
convert 宏 封装 了 以 下 转换 中 的 各 个 步骤 : 


(macros 


179) += 


#define convert(s, i, j 


) do { int len; \ 


assert(s 


); len = strlen(s 


); \ 

i 
= idx(i 
p len); j 


= idx(j 


, Len); \ 
if (i 


> j 


){intt=i 


=t; } \ 


assert(i 


V 
lI 


9 && 7 


<= len); } while (0) 


位 置 i 和 和 j 被 转换 为 从 0 到 s 的 长 度 之 间 的 索引 值 ， 如 有 必要 会 交换 i 和 j， 使 
得 i 的 值 不 超过 j。 结 尾 处 的 断言 确认 了 i 和 j 是 s 中 有 效 的 索引 位 置 。 在 转 
换 后 ，j - i 即 为 指定 子 串 的 长 度 。 


Str_sub 说 明了 convert 的 典型 用 法 。 


(functions 


180) = 
char *Str_sub(const char *s, int i, int j) { 


char *str, *p; 


convert(s, i, j); 
p = str = ALLOC(j - i + 1); 
while (i < j) 
*p++ = s[i++]; 
*p = ANNO 
return str; 


} 


指定 子 串 末 端的 位 置 被 转换 为 子 串 之 后 下 一 个 字符 的 索引 值 (可 能 是 结 
尾 0 字符 的 索引 值 ) 。 因 而 ，j-i 即 为 目标 子 串 的 长 度 ， 加 上 0 字符 在 内 ， 
需要 j-i+1 个 字 节 来 存储 该 子 串 。 


Str_sub 和 其 他 一 些 Str 函 数 都 可 以 使 用 标准 C 库 中 的 字符 串 例 程 来 编 
写 ， 如 strncpy， 人 参见 习题 15.2。 


15.3.1 FARRE 


str_dup 为 s[ij] 的 n 个 副本 加 上 一 个 结尾 0 字符 分 配 空间 ， 然 后 将 si 
复制 n 次 ， 当 然 前 提 是 sij] 子 串 非 空 。 


(functions 


180) += 


char *Str_dup(const char *s, int i, int j, int n) { 


int k; 


char *str, *p; 


assert(n >= 0); 
convert(s, i, j); 
p = str = ALLOC(n*(j - i) + 1); 
if (j - i > 0) 
while (n-- > 0) 
for (k = i; k < j; k++) 
*p++ = s[k]; 
*p = '\O'; 


return str; 


Str_reverse 类 似 Str_sub， 但 它 反 向 复制 字符 : 


(functions 


180) += 
char *Str_reverse(const char *s, int i, int j) { 


char *str, *p; 


convert(s, i, j); 
p = str = ALLOC(j - i + 1); 
while (j > i) 
*p++ = s[--j]; 
*p = '\O'; 


return str; 


Str_cat 可 以 调用 Str_catv 实 现 ， 但 它 使 用 得 比较 多 ， 值 
制 的 实现 : 


(functions 


180) += 
char *Str_cat(const char *s1, int i1, int ji, 
const char *s2, int 12, int j2) { 


char *str, *p; 


convert(si1, il, j1); 
convert(s2, i2, j2); 
p = str = ALLOC(j1 - il + j2 - i2 + 1); 
while (i1 < j1) 
*p++ = si[iit++]; 
while (i2 < j2) 
*p++ = s2[i2++]; 
*p = '\O'; 


return str; 


SF 


给 出 一 个 定 


Str_catv 稍 复杂 一 点 ， 因 为 它 必 须 对 可 变数 目的 参数 扫描 两 志 : 


(functions 


180) += 


char *Str_catv(const char *s, ...) { 
char *str; *p; 
const char *save = sS; 
int i, j, len = 0; 


va_list ap; 


va_start(ap, s); 


(len ~ the length of the result 


182) 
va_end(ap); 
p = str = ALLOC(len + 1); 
S = save; 
va_start(ap, s); 


(copy each 
s[i:j] to 
p, increment 
p 182) 
va_end(ap); 


*p = '\O'; 


return str; 


第 一 遍 将 各 个 参数 子 串 的 长 度 求 和 ， 以 算得 结果 的 长 度 。 在 为 结果 字符 
串 分 配 空间 之 后 ， 第 二 通 扫描 将 各 个 三 元 组 给 出 的 子 串 附加 到 结果 字符 


串 上 。 第 一 志 将 位 置 转换 为 索引 来 计算 每 个 子 串 的 长 度 ， 所 有 子 串 长 度 
的 总 和 即 为 结果 字符 串 的 长 度 ; 


(len ~ the length of the result 


182) = 
while (s) { 
1 = va_arg(ap, int); 
j = va_arg(ap, int); 
convert(s, i, j); 
len += j - i; 
s = va_arg(ap, const char *); 
} 


5 AE LSPA]: 唯一 的 差别 是 ， 对 len 的 赋值 操作 替换 为 复制 子 
串 的 循环 : 


(copy each 
s[i:j] to 
p, increment 


p 182) = 
while (s) { 
1 = va_arg(ap, int); 
j = va_arg(ap, int); 


convert(s, i, j); 


while (i < j) 
‘ptt = s[itt]; 


s = va_arg(ap, const char *); 


Str_map 建 立 一 个 数组 map， 按 from 和 to 指定 的 映射 ， 字 符 c 即 映射 到 
map[c]。 因而， 将 s[i:j] 中 的 字符 作为 map 的 索引 ， 即 可 得 到 映射 结 
而 后 将 其 复制 到 一 个 新 字符 串 中 : 


(map 
s[i:j] into a new string 


182) = 
char *str, *p; 
convert(s, i, j); 
p = str = ALLOC(j - i + 1); 
while (i < j) 
*p++ = map[(unsigned char)s[i++]]; 


*p 二 '\O'; 


上 述 代 码 中 的 强制 转换 ， 复 制 值 大 于 127 的 字符 被 “符号 扩展 ”为 负 的 索 
SIE ° 


建立 map 时 ， 首 先 将 map 初 始 化 ， 使 得 map[c] 等 于 c， 即 每 个 字符 都 
映射 到 本 身 。 接 下 来 ， 使 用 from 和 to 来 修改 map， 将 from 中 的 字符 作为 
map 的 索引 值 ， 而 将 to 中 的 对 应 字符 作为 映射 值 : 


(rebuild 


map 182) = 
unsigned Cc; 
for (c = 0; c < sizeof map; c++) 
map[c] = c; 
while (*from && *to) 
map[ (unsigned char)*fromt++] = *to++; 


assert(*from == 0 && *to == 0); 


上 述 代 码 中 的 断言 ， 实 现 了 “from 和 to 长 度 必 须 相 等 > 的 已 检查 的 运行 时 
HK ° 
Str_map 在 from 和 to 都 不 是 NULL 时 使 用 该 代码 块 ， 在 s 不 是 NULL 时 
使 用 <map s[i:j] into a new string 182>: 


(functions 


182) += 
char *Str_map(const char *s, int i, int j, 
const char *from, const char *to) { 


static char map[256] = { 0 }; 


if (from && to) { 
(rebuild 


map 182) 
} else { 


assert(from == NULL && to == NULL && s); 
assert(map['a']); 

} 

if (s) { 
(map 


s[i:j] into a new string 


182) 
return str; 
} else 
return NULL; 
} 


最 初 ，map 的 所 有 元 素 都 是 0。 在 to 中 没有 办 法 指定 一 个 0 字符 ， 因 此 断 
言 map['a] 非 零 ， 即 实现 了 “第 一 次 调用 Str_map 时 from 和 to 指针 不 能 大 
NULL” 的 已 检查 的 运行 时 错误 。 


索引 ji 对 应 的 字符 左 侧 的 正 数位 置 是 i+ 1。Str_pos 使 用 该 性 质 ， 来 返 
回 对 应 于 s 中 任意 位 置 i 的 正 数位 置 。 它 首先 将 ji 转换 为 索引 ， 确 认 索 引 的 
有 效 性 ， 而 后 将 其 转换 回 正 数位 置 并 返回 。 


(functions 


180) += 
int Str_pos(const char *s, int i) { 


int len; 


assert(s); 

len = strlen(s); 

i = idx(i, len); 

assert(i >= 0 && i <= len); 


return i + 1; 


Str_len 返 回 子 哩 s[j] 的 长 度 ， 其 做 法 是 将 i 和 j 转 换 为 索引 ， 并 返回 两 
个 索引 之 间 字 符 的 数目 : 


(functions 


180) += 


int Str_len(const char *s, int i, int j) { 
convert(s, i, j); 


return j - i; 


Str_cmp 的 实现 简明 但 乏味 ， 因 为 它 涉及 某 些 短 记 工作 : 
(functions 
180) += 
int Str_cmp(const char *si, int i1, int ji, 


const char *s2, int 12, int j2) { 


(string compare 


184) 


Str_cmp 首 先 将 计 和 j1 转 换 为 s1 中 的 索引 ， 记 和 j2 转 换 为 S2 中 的 索引 : 
(string compare 
184) = 


convert(si, i1, j1); 


convert(s2, i2, j2); 


fe ROK, Yas 1 MAEZ oP AF AAT ENRE E 
(string compare 
184) += 


si += il; 


s2 += 12; 


两 个 子 串 s1[i1:j1 和 s2[i2:j2] 中 的 较 短 者 ， 将 决定 需要 比较 多 少 个 字 名 


实际 的 比较 由 strncmp 完 成 。 


(string compare 


184) += 
if (j1 - id < j2 - i2) { 
int cond = strncmp(si, s2, ji - i1); 
return cond == 0 ? -1 : cond; 
} else if (j1 - 11 > j2 - 12) { 
int cond = strncmp(si, s2, j2 - i2); 


return cond == 0 ? +1 : cond; 


} else 


return strncmp(s1, s2, j1 - i1); 


Æ s1[i1:j1]HEs2[i2:j2]% H.strnecmpiğ FIOM, s1[il:j1]48 4 Fs2[i2:j2169 Bil 
2%, Alii) +s2[i2:j2] ° 第 二 个 让 语句 处 理 相 反 的 情况 ，else 了 于 人 句 处 理 两 
个 子 串 长 度 相等 的 情况 。 


C 语 言 标准 规定 ，strncmp (和 memcmp) 必须 将 S1 和 s2 中 的 字符 作 
为 无 符号 字符 处 理 ， 这 样 ， 在 s1 或 s2 中 出 现 大 于 127 的 字符 值 时 ， 画 数 可 
以 给 出 良 定 义 的 结果 。 例 如 ，strncmp(N344", "\127", 了 必须 返回 正 值 ， 
但 stmncmp 的 某 些 实现 不 正确 地 比较 了 “普通 ”字符 ， 普 通 字符 可 能 是 有 符 
号 的 ， 有 可 能 是 无 符号 的 。 对 于 这 些 实现 ，strncmp(\344", "\127", 1) 可 
能 返回 人 负 值 。memcmp 的 某 些 实现 有 同样 的 错误 。 


15.3.2 “分析 字符 串 


剩 下 的 函数 会 从 左 到 右 〈 或 从 右 到 左 ) 检查 子 串 ， 查 找 字 符 或 其 他 
字符 种。 这 些 函 数 在 搜索 成 功 时 返回 正 数位 置 ， 否 则 返回 0。Str_chr 很 
有 代表 性 ; 


(functions 


180) += 
int Str_chr(const char *s, int i, int j, int c) { 
convert(s, i, j); 
for ( ; i< j; i++) 
if (s[i] == c) 


return i + 1; 


return 0; 


Str_rchr 是 类 似 的 ， 但 它 从 s[i:j] 的 右 侧 开 始 搜 索 : 


(functions 


180) += 
int Str_rchr(const char *s, int i, int j, int c) { 
convert(s, i, j); 
while (j > i) 
if (s[--j] == c) 
return j + 1; 


return 0; 


这 两 个 函数 都 返回 s[i:j] 中 字符 c 出 现 处 左 侧 的 正 数 位 置 。 


Str_upto 和 Str_rupto 类 似 于 Str_chr 和 Str_rchr， 只 是 它们 会 在 s[i:j] 中 查 
找 某 个 集合 中 的 任意 字符 : 


(functions 


180) += 

int Str_upto(const char *s, int i, int j, const char *set) { 
assert(set); 
convert(s, i, J); 
for (; i< j; i++) 


if (strchr(set, s[i])) 


return i+ 1; 


return 0; 


int Str_rupto(const char *s, int i, int j, const char *set) { 
assert(set); 
convert(s, i, j); 
while (j > i) 
if (strchr(set, s[--j])) 
return j + 1; 


return 0; 


Str_find 在 s[i:j] 中 搜索 字符 串 。 其 实现 将 搜索 长 度 为 0 或 1 的 字符 串 作 
为 特例 处 理 。 


(functions 


180) += 
int Str_find(const char *s, int i, int j, const char *str) { 


int len; 


convert(s, i, j); 

assert(str); 

len = strlen(str); 

if (len == 0) 
return i+ 1; 


else if (len == 1) { 


for (; i< j; i++) 
if (s[i] == *str) 
return i + 1; 
} else 
for ( ; i + len <= j; i++) 
if ( (s[i...] = str[0..len-1] 186) ) 
return i + 1; 


return 0; 


如 果 str 没 有 字符 ， 搜 索 总 是 成 功 。 如 果 str 只 有 一 个 字符 ，Str_find 等 效 于 
Str_chr。 在 一 般 情况 中 ，Str_find 在 s[i:j] 中 查找 str， 但 要 特别 小 心 ， 不 能 
接受 超出 子 捉 末尾 的 匹配 : 


(s[i...] = str[0..len-1] 186) = 


(strncmp(&s[i], str, len) == 0) 


Str_rfind 同 样 需要 处 理 这 三 种 情形 ， 但 必须 反问 比较 字符 串 。 


(functions 


180) += 
int Str_rfind(const char *s, int i, int j, 
const char *str) { 


int len; 


convert(s, i, j); 
assert(str); 


len = strlen(str); 


if (len == 0) 
return j + 1; 
else if (len == 1) { 
while (j > i) 
if (s[--j] == *str) 
return j + 1; 
} else 
for ( 7 j - len >= i; j--) 
if (strncmp(&s[j-len], str, len) == 0) 
return j - len + 1; 


return 0; 


Str_rfind 不 能 接受 超出 子 串 起 点 的 匹配 。 


Str_any 和 相关 函数 并 不 搜索 字符 或 字符 串 ， 如 有 果 在 所 述 子 串 的 开头 
或 结尾 发 现 指 定 的 模式 ， 这 些 函 数 将 跳 过 模式 字符 或 字符 串 。 如 有 果 
s[i:i+1] 是 set 中 的 一 个 字符 ，Str_any 将 返回 Str_pos(s, i)+1: 


(functions 


180) += 


int Str_any(const char *s, int i, const char *set) { 


int len; 


assert(s); 
assert(set); 


len = strlen(s); 


1 = idx(i, len); 

assert(i >= 0 && i <= len); 

if (i < len && strchr(set, s[i])) 
return i + 2; 


return 0; 


如 果 测 斌 成功 ， 索 引 i+ 1 将 转换 为 正 数 位 置 (再 加 上 1) ， 这 是 Str_any 
返回 i + 2 的 原因 。 


Str_many 跨 过 出 现在 s[i:j 开 头 、 完 全 由 set 中 一 个 或 多 个 字符 构成 的 
TR: 


(functions 


180) += 
int Str_many(const char *s, int i, int j, const char *set) { 
assert(set); 
convert(s, i, j); 
if (i < j && strchr(set, s[i])) { 
do 
i++; 
while (i < j && strchr(set, s[i])); 
return i + 1; 
} 


return 0; 


Str_rmany 同 后 跳 过 出 现在 s[i:j] 林 尾 、 完 全 由 set 中 一 个 或 多 个 字符 构 
成 的 子 串 : 


(functions 


180) += 
int Str_rmany(const char *s, int i, int j, const char *set) { 
assert(set); 
convert(s, i, j); 
if (j > i && strchr(set, s[j-1])) { 
do 


ej; 
while (j >= i && strchr(set, s[j])); 
return j + 2; 
} 


return 0; 


} 


在 do-while 循 环 结束 时 ，j 等 于 i - 1 或 是 第 一 个 不 在 set 中 的 字符 的 索引 。 
在 前 一 种 情况 下 ，Set_rmany 必 须 返 回 i+ 1， 在 第 二 种 情况 下 ， 它 必须 返 
EHIE 侧 的 位 置 。j + 2 在 两 种 情况 下 都 是 正确 的 返回 值 。 


如 果 str 出 现在 s[i:j] 起 始 处 ，Str_match 返 回 Str_pos(s, i)+strlen(str) ° 
束 像 Str_find， 搜 索 长 度 为 0 或 1 的 字符 捉 需 要 特殊 处 理 : 


(functions 


180) += 


int Str_match(const char *s, int i, int j, 
const char *str) { 


int len; 


convert(s, i, j); 
assert(str); 
len = strlen(str); 
if (len == 0) 
return i + 1; 
else if (len == 1) { 
if (i < j && s[i] == *str) 
return i + 2; 
} else if (i + len <= j && (s[i...] = str[0..len-1] 186) ) 
return i + len + 1; 


return 0; 


处 理 一 般 情 况 时 必须 注意 ， 使 得 匹配 串 不 能 超出 s[i:j] 的 末尾 。 


类 似 的 情形 也 出 现在 Str_rmatch 中 ， 其 中 必须 避免 超出 s[i:j] 起 始 处 的 
匹配 串 ， 也 需要 将 长 度 为 0 或 1 的 搜索 字符 串 作 为 特例 处 理 。 


(functions 


180) += 
int Str_rmatch(const char *s, int i, int j, 
const char *str) { 


int len; 


convert(s; i, j); 

assert(str); 

len = strlen(str); 

if (len == 0) 
return j + 1; 

else if (len = 1) { 
if (j > i && s[j-1] == *str) 

return j; 

} else if (j - len > i 

&& strncmp(&s[j-len], str, len) == 0) 
return j - len + 1; 


return 0; 


15.3.3 ”转换 函数 


最 后 一 个 函数 是 Str_fmt， 它 属于 Fmt 接 口中 提 到 的 转换 函数 。 对 转 
换 函 数 的 调用 序列 在 14.1.2 东 描述 。flags、width 和 precision 参 数 规定 了 
如 何 格式 化 字符 串 。 


Str_fmt 的 重要 特性 是 ， 对 于 传递 到 某 个 Fmt 函 数 的 参数 列表 的 可 变 
部 分 ，Str_fmt 会 消耗 其 中 三 个 参数 。 这 三 个 参数 分 别 指 定 了 字符 串 和 其 
中 的 两 个 位 置 。 这 两 个 位 置 给 出 了 子 串 长 度 ， 与 flags、width 和 precision 
一 起 确定 了 如 何 输出 子 串 。Str_fmt 用 Fmt_puts 来 解释 这 些 值 并 输出 该 字 
fF AB 


(functions 


180) += 

void Str_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
char *s; 


int i, j; 


assert(app && flags); 

s = va_arg(*app, char *); 

i = va_arg(*app, int); 

j = va_arg(*app, int); 

convert(s, i, j); 

Fmt_puts(s + i, j - i, put, cl, flags, 


width, precision); 


15.4 扩展 阅读 


[Plauger，1992] 简 要 地 批评 了 string.h 中 定义 的 函数 ， 并 说 明了 如 何 
实现 它们 。[Roberts，1995] 描 述 了 一 个 简单 的 字符 串 接 口 ， 与 Str 类 似 ， 
基于 string.h 实 现 。 


Str 接 口 的 设计 几乎 是 从 Icon 程序 设计 语言 [Griswold and Griswold, 
1990] 的 字符 串 操 作 功 能 逐 字 照搬 过 来 的 。 使 用 位 置 而 不 是 索引 ， 以 及 使 
用 非 正 数 位 置 指 定 相 对 于 字符 串 末 尾 的 位 置 ， 这 些 都 始 自 于 Icon 。 


Str 的 函数 仿照 了 Icon 中 名 称 类 似 的 字符 串 函 数 。Icon 中 的 函数 更 为 
强大 ， 因 为 它们 使 用 了 Icon 的 目标 导向 的 求 值 机 制 (goal-directed 
evaluation mechanism) 。 例 如 ，Icon 的 find 函 数 可 以 返回 一 个 字符 串 在 
男 一 个 字符 串 中 出 现 的 所 有 位 置 ， 而 后 一 个 字符 串 则 是 根据 调用 find 的 
上 下 文 来 确定 的 。Icon 还 有 一 种 字符 串 扫 描 功 能 也 利用 了 目标 导向 的 求 
值 机 制 ， 这 是 一 种 强大 的 模式 匹配 功能 。 


Str_map 可 用 于 实现 数量 众多 的 字符 串 转 换 过 程 。 例 如 ， 如 果 s 是 一 
个 包含 7 个 字符 的 字符 串 ， 


Str_map("abcdefg", 1, 0, "gfedcba", s) 


将 返回 s 反 向 后 的 串 。[Griswold，1980] 探 讨 了 对 映射 机 制 的 此 类 用 法 。 


15.5 “习题 


15.1 扩展 ids.c， 使 之 识别 并 忽略 C 语 言 注 释 、 字 符 串 常数 和 关键 
字 。 推 广 你 的 扩展 版 本 ， 使 之 能 够 接受 命令 行 参数 ， 以 指定 需要 忽略 的 
额外 的 标识 符 。 


15.2 St 的 实现 可 以 使 用 标准 C 库 中 的 字符 串 和 内 存 函 数 来 复制 字 
符 串 ， 如 strmncpy 和 memcpy。 


例如 ，Str_sub 可 以 如 下 实现 。 


char *Str_sub(const char *s, int i, int j) { 


char *str; 


convert(s, i, j); 


str = strncpy(ALLOC(j - i + 1), s+ i, j - i); 
str[j - i] =." Xe"; 
return str; 


i 
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比 C 语 言 中 对 应 的 循环 机 制 快 得 多 。 高 度 优化 的 汇编 语言 实现 通 和 也 更 
快速 。 重 新 实现 Str 接 口 ， 尽 可 能 使 用 string.h 函 数 ， 在 特定 机 器 上 使 用 特 
定 C 编 译 右 来 测量 结果 ， 然 后 按照 字符 串 参 数 的 长 度 ， 分 别 度量 各 个 画 
数 的 改进 情况 。 


15.3 ”设计 并 实现 一 个 函数 ， 来 搜索 一 个 子 串 ， 以 碍 找 通过 正则 表 
达 式 指定 的 模式 ， 就 像 是 AWK 支 持 的 那样 ， 如 [Aho, Kernighan and 
Weinberger，1988] 所 述 。 该 函数 需要 返回 两 个 值 : 匹配 串 的 起 始 位 置 及 
其 长 度 。 


15.4 Icon 有 很 广泛 的 字符 串 扫 描 功 能 。 其 ?运算 符 可 以 建立 一 个 扫 
描 环 境 ， 提 供 一 个 字符 串 及 其 中 的 一 个 位 置 。 像 find 这 样 的 字符 串 函 数 
调用 时 可 以 只 用 一 个 参数 ， 函 数 对 字符 串 及 当前 扫描 环境 中 的 位 置 进行 
PRIE °- WR [Griswold and Griswold，1990] 中 描述 的 Icon 的 字符 串 扫 描 功 
能 ， 设 计 并 实现 一 个 提供 类 似 功 能 的 接口 。 


15.5 string. he T Plt ee 
char *strtok(char *s, const char *set); 
该 函数 将 s 划 分 为 看 干 标记 ， 以 set 中 的 字符 作为 分 陋 符 。 通 过 重复 地 调 


用 strtok， 即 可 将 字符 串 s 划 分 为 若干 标记 。 只 有 第 一 个 调用 会 传递 s 作 为 
参数 ，strtok 找 到 第 一 个 不 在 set 中 的 字符 ， 这 也 是 第 一 个 标记 的 起 始 地 


址 ， 然 后 strtok 会 查找 下 一 个 出 现在 set 中 的 字符 ， 并 将 其 改写 为 0 字符 ， 
并 返回 第 一 个 标记 的 地 址 。 后 续 对 strtok 的 调用 〈 形 如 strtok(NULL， 
set)) ，NULL 参 数 使 得 strtok 从 上 一 次 搜索 完成 的 位 置 继续 查找 ， 其 过 
程 类 似 ， 最 后 将 返回 此 次 找到 的 标记 的 起 始 地 址 。 每 次 调用 的 set 可 以 是 
不 同 的 。 在 搜索 失败 时 ，strtok 返 回 NULL。 扩 展 Str 接 口 ， 增 加 一 个 函数 
提供 类 似 的 功能 ， 但 不 能 修改 其 参数 的 内 容 。 你 可 以 改进 strtok 的 设计 
吗 ? 


15.6 ”Str 接 口中 的 函数 总 是 为 其 结果 分 配 空间 ， 在 一 些 应 用 程序 中 
这 些 分 配 操作 可 能 是 不 必要 的 。 假 定 接口 中 的 函数 可 以 接受 一 个 可 选 的 
目标 ， 仅 当 目 标 为 NULEL 指 针 时 才 分 配 空间 。 例 如 ， 


char *Str_dup(char *dst, int size, 


const char *s, int i, int j, int n); 


如 果 dst 不 是 NULL， 该 画 数 将 导 臻 结果 存储 在 dst[0.size-1] 中 并 返回 dst 
否则 ， 它 将 为 结果 分 配 空间 ， 与 当前 版 本 相同 。 基 于 这 种 方法 设计 一 个 
接口 。 请 注意 ， 一 定 要 规定 size 过 小 时 画 数 的 行为 。 将 你 的 设计 与 St 接 
口 比较 。 哪 个 更 简单 ? 哪个 不 容易 出 错 ? 


15.7 ”这 里 是 另 一 个 避免 在 Str 函 数 中 分 配 内 存 的 提议 。 假 定 以 下 画 
数 
void Str_result(char *dst, int size); 
将 dst 作 为 下 一 次 调用 Str 函 数 时 的 结果 字符 串 。 如 果 结 果 字 符 串 不 是 
NULL ，Str 函 数 将 其 结果 存储 到 dst[0..size-1] 中 ， 并 将 结果 字符 串 指针 设 


为 NULL。 如 果 结 果 字 符 串 为 NULL， 它 们 将 照常 为 结果 分 配 空间 。 讨 论 
这 个 提议 的 利 束 。 


[1] 作者 实际 上 起 记 了 C 对 索引 的 天 然 约定 ， 即 所 请 的 半 开 区 间 : 假 
定 i、j 为 基于 0 的 非 负 索引 值 ，i<=j，s$ 为 字符 串 ，s 上 bj] 指定 了 从 索引 i 开 
始 、 在 索引 j 之 前 结束 的 子 串 ; 与 文中 的 位 置 约定 相 比 ， 这 种 约定 优雅 简 
单 ， 而 且 具 有 同样 的 表示 能 力 。 一 一 译 者 注 


[2] 除非 字符 串 尾部 的 地 址 已 知 ， 否 则 这 是 不 可 能 的 。 一 一 译 者 注 


第 16 章 ”高 级 字符 串 


前 一 章 描述 了 Str 接 口 导 出 的 函数 ， 这 些 函 数 增强 了 C 语 言 处 理 字 
符 串 的 约定 。 按 照 惯例 ， 字 符 串 是 字符 的 数组 ， 其 中 最 后 一 个 字符 是 
NULL。 虽 然 这 种 表示 适用 于 许多 应 用 程序 ， 它 确实 有 两 个 重要 的 缺 
态 。 上 自 先 ， 获 取 了 字符 串 长 度 需 要 搜索 字符 串 ， 碍 找 标 志 了 字符 串 结束 的 0 
字符 ， 因 此 计算 长 度 伦 费 的 时 间 与 字符 串 的 长 度 成 正比 。 其 次 ，Str 接 
口中 的 函数 和 标准 库 中 的 一 些 函 数 假定 字符 串 古 可 以 修改 的 ， 因 此 画 
数 或 其 调用 者 必须 为 结果 字符 串 分 配 空 间 ， 在 不 修改 字符 串 的 应 用 程 
序 中 ， 许 多 这 种 分 配 是 不 必要 的 。 


本 章 描述 的 Text 接 口 对 字符 串 使 用 了 一 种 和 有 不 同 的 表示 ， 解 决 
了 这 两 个 缺点 。 长 度 可 以 在 常数 时 间 内 计算 得 到 ， 因 为 相关 信息 保存 
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改变 的 ， 即 它们 无 法 直接 修改 ， 而 且 其 中 可 能 包含 甬 入 的 0 字符 。Text 
提供 了 函数 ， 可 以 在 Text 字 符 串 和 C 风 格 字符 串 之 间 进 行 转换 ， 这 些 转 
换 函 数 古 Text 接 口 的 改进 市 来 的 代价 。 


16.1 接口 


Text 接 口 通过 一 个 两 个 元 素 的 拉 述 符 来 表示 了 字符 串 ， 搬 述 符 的 两 
个 元 素 分 别 十 字符 串 的 长 度 和 指 癌 第 一 个 字符 的 指针 : 


(exported types 


192) = 

typedef struct T { 
int len; 
const char *str; 


+ T; 


(text.h 


》 三 
#ifndef TEXT_INCLUDED 
#define TEXT_INCLUDED 
#include <stdarg.h> 
#define T Text_T 


(exported types 


192) 


(exported data 


195) 


(exported functions 


193) 


#undef T 


#endif 


str 字 段 指 向 的 字符 串 不 是 以 0 字符 结尾 的 。Text_T 指 向 的 字符 串 可 能 
包含 任意 字符 ， 包 含 0 字符 在 内 。Text 接 口 给 出 了 描述 符 的 表示 ， 使 得 
客户 程序 可 以 直接 访问 其 中 的 字段 。 给 定 一 个 Text_T 实 例 ，s.len 给 
了 子 符 串 的 长 度 ， 而 实际 的 字符 通过 s.str[0..s.len-1] 访 问 。 


客户 程序 可 以 读 取 Text_T 实 例 中 的 字段 和 其 指 问 的 字符 串 中 的 字 
符 ， 但 不 允许 改变 字段 或 字符 ， 除 非 通过 本 接口 中 的 函数 ， 或 者 
Text_T 实 例 是 由 客户 程序 初始 化 的 ， 或 者 Text_T 实 例 是 由 Text box 返回 
的 。 改 变 Text_T 描 述 的 字符 串 ， 是 一 个 未 检查 的 运行 时 错误 。 癌 本 接 
口中 任何 函数 传递 的 TextT 实 例 ， 如 采 len 字 段 为 负 值 或 str 字 段 为 
NULL， 都 是 已 检查 的 运行 时 错误 。 


Text 导 出 的 函数 按 值 EBANA EAA, REE KA KRUR 
回 的 都 是 描述 符 本 身 ， 而 不 是 指 同 搞 述 符 的 指针 。 因 而 ，Text 函 数 都 
不 分 配 摘 述 符 。 

必要 时 ， 一 些 Text 了 男 数 确实 会 为 子 符 串 本 身分 配 空 间 。 这 种 串 空 
间 岂 完全 由 Text 管 理 ， 客 户 程序 决 不 能 释放 字符 串 (BR BOCA AY 


外 情况 ) 。 通 过 外 部 手段 (如 调用 free 或 Mem_free) 释放 字符 串 ， 是 
一 个 未 检查 的 运行 时 错误 。 


以 下 函数 


(exported functions 


193) = 


extern T Text_put(const char *str); 
extern char *Text_get(char *str, int size, T s); 


extern T Text_box(const char *str, int len); 


在 描述 符 和 C 风 格 字 符 串 之 间 进 行 转 换 。Text_put 将 0 结尾 字符 串 str 复 
制 到 串 衬 间 中 ， 并 返回 对 应 于 新 字符 串 的 摘 述 符 。Text_put 可 能 引发 
Mem_Failed 异 常 。str 是 NULL， 则 造成 已 检查 的 运行 时 错误 。 


Text_get 将 s 描 述 的 字符 串 复制 到 str[0..size-2] 中 ， 附 加 一 个 0 字符 ， 
并 返回 str。 如果 size 小 于 s.len+1， 则 造成 已 检查 的 运行 时 错误 。 如 采 str 
是 NULL ，Text_get 将 忽略 size， 调 用 Mem_alloc 来 分 配 s.len+1 个 字 节 ， 
将 s.str 复 制 到 新 分 配 的 空间 中 ， 并 返回 指向 分 配 空间 起 始 处 的 指针 。 
在 st 是 NULL 时 ，Text_get 可 能 引发 Mem_Failed 异 常 。 


客户 程序 调用 Text box 为 常数 字符 串 或 客户 程序 目 行 分 配 的 字符 
串 建 立 描 述 符 。 它 将 str 和 len“ 闭 箱 ”到 一 个 摘 述 符 中 并 返回 朱 述 符 。 例 
如 ， 


static char editmsg[] = "Last edited by: "; 


Text_T msg = Text_box(editmsg, sizeof (editmsg) - 1); 


将 对 应 于 "Last edited by:" 的 Text_T 实 例 赋值 给 msg。 请 注意 ，Text_box 
的 第 二 个 参数 忽略 了 editmsg 末 尾 的 0 字符 。 如 果 不 略 去 该 字符 ， 它 将 
被 当做 msg 描 述 的 字符 串 的 一 部 分 。str 是 NULL 或 lan 是 负 值 ， 则 造成 
已 检查 的 运行 时 错误 。 


许多 Text 函 数 可 以 接受 字符 串 位 置 ， 位 置 的 定义 可 参见 Str 接 口 。 
位 置 标识 了 字符 之 间 的 位 置 ， 包 含 第 一 个 字符 之 前 和 最 后 一 个 字符 之 


后 。 正 数位 置 标识 了 从 字符 串 第 一 个 字符 左 侧 开始 (WA) 的 各 个 位 
置 ， 而 非 正 数位 置 标识 了 从 字符 串 最 后 一 个 字符 右 侧 开始 (向 左 ) 的 
各 个 位 置 。 例 如 图 15-1， 给 出 了 字符 串 Interface 中 的 各 个 位 置 。 


下 列 函 数 
(exported functions 


193) += 


extern T Text_sub(T s, int i, int j); 


返回 一 个 描述 待 ， 对 应 于 s 中 位 置 i 和 j 之 间 的 子 串 。 位 置 i 利 j 可 以 按 任意 
顺序 给 出 。 例 如 ， 如 果 


Text_T s = Text_put("Interface"); 
下 述 表 达 式 


Text_sub(s, 6, 10) 
Text_sub(s, 0, -4) 
Text_sub(s, 10, -4) 


Text_sub(s, 6, 0) 


都 返回 对 应 于 子 串 face 的 描述 符 。 


因为 客户 程序 并 不 修改 字符 串 中 的 字符 ， 字 符 串 也 不 需要 以 0 字符 
结束 ，Text_sub 只 需要 返回 一 个 Text_T 实 例 ， 其 中 的 str 字 段 指向 s 的 子 
串 的 第 一 个 字符 ， 而 len 字 段 设置 为 该 子 串 的 长 度 即 可 。 因 而 s 和 返回 
值 共 享 实际 字符 串 中 的 字符 ，Text_sub 没 有 为 返回 值 分 配 空 间 。 但 客 
户 程 序 不 能 依赖 于 s 和 返回 值 共 人 圣 同 一 字符 串 的 这 一 事实 ， 因 为 Text 可 


能 对 空 串 和 单字 符 串 给 予 特殊 处 理 。Text 导 出 的 大 部 分 函数 都 类 似 于 
Str 导 出 的 范 数 ， 但 其 中 很 多 函数 不 接受 位 置 参数 ， 因 为 Text_sub 用 很 
少 的 代价 提供 了 同样 的 功能 。 


以 下 函数 


(exported functions 


193) += 


extern int Text_pos(T s, int i); 


返回 s 中 对 应 于 任意 位 置 i 的 正 数 位 置 。 例 如 ， 如 条 s 如 上 上 所 述 被 赋值 为 


Interface, 


Text_pos(s, -4) 
将 返回 6。 


如 果 Text_pos 的 参数 i 或 者 Text_sub 中 的 参数 i 或 j 指 下 了 s 中 一 个 不 存 
在 的 位 置 ， 会 造成 已 检查 的 运行 时 错误 。 


DA F EKZ 


(exported functions 


193) += 
extern T Text_cat (T s1, T s2); 
extern T Text_dup (T s, int n); 


extern T Text_reverse(T s); 


分 别 和 连接、 复制 和 反 转 字符 串 ， 所 有 这 些 函 数 都 可 能 引发 Mem_Failed 
异常 。Text_cat 返 回 一 个 描述 符 ， 对 应 于 连接 sS1 和 s2 得 到 的 结果 字符 
串 ， 如 有 果 s1 或 2 是 空 串 ， 则 返回 另 一 个 参数 。 另 外 ，Text_cat 仅 在 必要 
时 构造 sS1 和 s2 的 一 个 新 副本 。 


Text_dup 返 回 一 个 描述 符 ， 对 应 于 连接 s 的 n 个 副本 得 到 的 结果 字 
符 串 ， 传 递 负 的 n 值 ， 是 一 个 已 检查 的 运行 时 错误 。Text_reverse 返 回 
一 个 字符 串 ， 其 中 包含 了 s 中 所 有 的 字符 ， 但 字符 出 现 的 顺序 与 正好 
相反 。 


(exported functions 


193) += 


extern T Text_map(T s, const T *from, const T *to); 


RELA from Alto ts AF FE RRITAR, BRAT LUO PF: 对 s 中 每 
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串 ， 对 于 s 中 没有 出 现在 from 中 的 字符 ， 字 符 本 喘 直 接 输 出 到 结果 字符 
串 。 例 如 ， 


Text_map(s, &Text_ucase, &Text_lcase) 


返回 $ 的 一 个 副本 ， 其 中 的 大 写字 母 转换 为 对 应 的 小 写字 母 。 
Text_ucase 和 Text_lcase 是 Text 接 口 导 出 的 预定 义 描述 符 中 的 两 个 例子 。 
完整 的 预定 义 描 述 符 列表 如 下 : 


(exported data 


195) = 


extern const Text_cset; 


extern const Text_ascil; 
extern const Text_ucase; 
extern const Text_lcase; 
extern const Text_digits; 


extern const Text_null; 


Text_cset 是 一 个 字符 串 ， 由 所 有 256 个 8 比特 的 字符 组 成 ，Text_ascii 包 
含 128 个 ASCH 字 符 , Textucase 是 字 符 串 
ABCDEFGHIJKLMNOPQRSTUVWXYZ , Text lcase 是 字符 $ 
abcdefghijklmnopqrstuvwxyz, ，Text_digits 是 0123456789 ，Text_null 是 空 
串 。 客 户 程序 通过 获取 这 些 字符 串 的 子 串 ， 可 以 形成 其 他 常见 的 字符 
EE o 


Text_map 可 以 记录 最 新 且 不 是 NULL 的 ffom 和 to 值 ， 在 from 和 to 都 
是 NULL 时 将 使 用 记录 的 值 。 如 果 from 和 to 中 仅 有 一 个 为 NULL ， 或 二 
者 均 非 NULL 时 from->len 不 等 于 to->lean， 则 造成 已 检查 的 运行 时 错 
误 。Text_map 可 能 引发 Mem_Failed 异 常 。 


字符 串通 过 以 下 函数 比较 


(exported functions 


193) += 


extern int Text_cmp(T s1, T s2); 


当 s1 小 于 、 等于、 大 于 s2 时 ， 该 函数 分 别 返 回 负 值 、0、 正 值 。 


Text 接 口 导 出 了 一 组 字符 串 分 析 范 数 ， 与 Str 接 口 导 出 的 相关 函数 
几乎 是 相同 的 。 如 下 所 述 的 这 些 画 数 ， 可 以 接受 被 检查 字符 串 中 的 位 
置 作为 参数 ， 因 为 这 些 位 置 中 通常 编码 了 分 析 的 当前 状态 信息 。 在 接 
下 来 的 描述 中 ，s[i:j] 表 示 s 中 在 位 置 ] 和 j 之 间 的 子 串 ，s 自 表示 s 中 位 置 i 
右 侧 的 字符 。 


下 列 画 数 在 字符 串 中 查找 单个 字符 或 一 组 字符 ， 在 所 有 情况 下 ， 
如 果 i 或 j 指 定 不 存在 的 位 置 ， 均 属 已 检查 的 运行 时 错误 。 


(exported functions 


193) += 

extern int Text_chr(T s, int i, int j, int c); 
extern int Text_rchr(T s, int i, int j, int c); 
extern int Text_upto(T s, int i, int j, T set); 
extern int Text_rupto(T s, int i, int j, T set); 
extern int Text_any(T s, int i, T set); 

extern int Text_many(T s, int i, int j, T set); 


extern int Text_rmany(T s, int i, int j, T set); 


Text_chr 和 Text_rchr 分 别 在 s[i:j] 查 找 最 左 侧 和 最 右 侧 的 字符 ce， 并 返回 s 
中 该 字符 左 侧 的 正 数 位 置 。 如 果 c 没 有 在 s[i:j] 中 ， 两 个 函数 都 返回 0。 
Text_upto 在 s[i:j] 中 从 左 向 右 搜索 set 中 的 任意 字符 ，Text_rupto 在 s[i:j] 中 
从 右 向 左 搜 索 set 中 的 任意 字符 ， 二 者 均 返 回 找到 的 第 一 个 字符 左 侧 的 
正 数 位 置 。 如 采 set 中 的 所 有 字符 都 没有 出 现在 s[i:j] 中 ， 两 个 函数 都 返 
Elo ° 


如 果 s 上 等 于 c，Text_any 返 回 Text_pos(s, D)+1， 否 则 返回 0。 如 果 
s[i:j] 以 set 中 的 某 个 字符 开始 ，Textmany 返 回 完 全 由 set 中 字符 组 成 的 
(最 长 ) 子 串 之 后 的 正 数位 置 ; 和 否则， 该 函数 返回 0。 如 果 s[ij] 以 set 中 
的 某 个 字符 结束 ，Text_rmany 返 回 完 全 由 set 中 字符 组 成 的 〈 最 长 ) F 
串 之 前 的 正 数位 置 ， 否 则 Text_rmany 返 回 0 。 


剩余 的 分 析 函 数 碍 找 字符 串 。 


(exported functions 


193) += 

extern int Text_find(T s, int i, int j, T str); 
extern int Text_rfind(T s, int i, int j, T str); 
extern int Text_match(T s, int i, int j, T str); 


extern int Text_rmatch(T s, int i, int j, T str); 


Text_find 和 Text_rfind 分 别 在 s[i:j] 查 找 最 左 侧 和 最 右 侧 的 子 串 str， 并 返 
回 s 中 该 子 串 左 侧 的 正 数位 置 。 如 果 str 没 有 出 现在 s[i:j] 中 ， 两 个 贸 数 都 
返回 0。 


QO È slij] A F È str F 4G , AB A Text_match XX [4] Text_pos(s, 
iD)+strlen， 人 否则 返回 0。 如 果 s[j] 以 子 串 str 结 束 ， 那 么 Text_rmatch 返 回 
Text_pos(s, )-strlen， 否 则 返回 0。 


以 下 函数 


(exported functions 


193) += 


extern void Text_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision); 


可 以 用 于 Fmt 接 口 ， 作 为 转换 函数 。 它 消耗 一 个 指 癌 Text_T 实 例 的 指 
针 ， 并 按照 可 选 的 flags、width 和 precision 参 数 来 格式 化 字符 串 ， 格 式 
化 的 方式 与 printf 格 式 码 %s 相 同 。 之 所 以 使 用 指 癌 Text_T 实 例 的 指针 ， 
是 因为 在 标准 C 语 言 中 ， 在 可 变 长 度 参数 列表 的 可 变 部 分 传递 小 的 结 
构 ， 这 种 做 法 可 能 是 不 可 移植 的 。 指 癌 Text_T 实 例 的 指针 为 NULL ` 
app 或 flags 为 NULL ， 均 为 已 检查 的 运行 时 错误 。 


Text 接 口 使 得 客户 程序 可 以 有 限 地 控制 对 串 空间 的 分 配 ， 即 ， 对 
于 上 文 描述 的 返回 描述 符 的 函数 ， 可 以 控制 结 末 字符 串 实 际 存储 的 位 
置 。 具 体 来 说 ， 可 通过 下 列 函 数 以 栈 的 形式 来 管理 相应 的 内 存 空 间 。 


(exported types 


192) += 


typedef struct Text_save_T *Text_save_T; 


(exported functions 


193) += 
extern Text_save_T Text_save(void); 


extern void Text_restore(Text_save_T *save); 


Text save 返回 一 个 类 型 Text_ save _T 的 不 透明 指针 值 ， 其 中 编码 了 串 衬 
间 的 “机 部” 位置 。 该 值 在 以 后 传递 给 Text_restore， 以 释放 Text_save_T 


值 创 建 以 来 分 配 的 那 部 分 串 空间 。 如 果 h 是 一 个 Text_save_T 类 型 的 
值 ， 调 用 Text_restore(h) 将 使 在 h 之 后 创建 的 所 有 描述 伯 和 所 有 
Text_save 工 值 变 为 无 歼 。 传 递 给 Text restore 的 Text save 工 值 为 
NULL， 是 一 个 已 检查 的 运行 时 错误 。 调 用 Text_restore 之 后 ， 使 用 变 
为 无 歼 的 描述 符 和 Text_savt_T 值 ， 是 未 检查 的 运行 时 错误 。Text_save 
可 能 引发 Mem_Failed 异 常 。 


16.2 ”实现 


Text 接 口 的 实现 与 Str 接 口 的 实现 非常 类 似 ， 但 Text 范 数 可 以 利用 
几 个 重要 的 特例 ， 详 述 如 下 。 


(text.c 


Y= 
#include <string.h> 
#include <limits.h> 
#include "assert.h" 
#include "fmt.h" 
#include "text.h" 


#include "mem.h" 


#define T Text_T 


(macros 


198) 


(types 


205) 
(data 


198) 


(static functions 


204) 


(functions 
198) 
所 有 常数 摘 述 符 都 指 癌 一 个 由 所 有 256 个 字符 组 成 的 字符 串 : 


(data 


198) = 


static char cset[] = 


"\000\001\002\003\004\005\006\007\010\011\012\013\014\015\016\0 


7! 


"\020\021\022\023\024\025\026\027\030\031\032\033\034\035\036\0 


37" 


"\040\041\042\043\044\045\046\047\050\051\052\053\054\055\056\0 


57" 


"\060\061\062\063\064\065\066\067\070\071\072\073\074\075\076\0 


77" 


"\100\101\102\103\104\105\106\107\110\111\112\113\114\115\116\1 


17" 


"\120\121\122\123\124\125\126\127\130\131\132\133\134\135\136\1 


37" 


"\140\141\142\143\144\145\146\147\150\151\152\153\154\155\156\1 


57" 


"\160\161\162\163\164\165\166\167\170\171\172\173\174\175\176\1 


77" 


"\200\201\202\203\204\205\206\207\210\211\212\213\214\215\216\2 


T7" 


"\220\221\222\223\224\225\226\227\230\231\232\233\234\235\236\2 


37" 


"\240\241\242\243\244\245\246\247\250\251\252\253\254\255\256\2 


57" 


"\260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\2 


T" 


"\300\301\302\303\304\305\306\307\310\311\312\313\314\315\316\3 


17" 


"\320\321\322\323\324\325\326\327\330\331\332\333\334\335\336\3 


37" 


"\340\341\342\343\344\345\346\347\350\351\352\353\354\355\356\3 


57" 


"\360\361\362\363\364\365\366\367\370\371\372\373\374\375\376\3 


77" 

/ 
const 
const 
const 
const 
const 


const 


Text_cset 
Text_ascil 
Text_ucase 
Text_lcase 
Text_digits 


Text_null 


{ 256, 


{ 128, 


{ 26, 


{ 26, 


{ 10, 


{ 


0, 


cset 
cset 
cset 
cset 
cset 


cset 


}; 
}; 
+ 'A' 3; 
+ 'a' }; 
+ '0" }; 
}; 


Text 函 数 都 接受 位 置 参数 ， 但 会 将 位 置 转换 为 位 置 右 侧 字符 的 索 
引 ， 以 便 访 问 字 符 串 中 的 字符 。 正 数位 置 减 去 1 即 可 转换 为 索引 值 ， 非 
正 数位 置 需 要 加 上 了 字符 串 的 长 度 才 能 转换 为 索引 值 : 


(macros 


198) = 


#define idx(i, len 
) ((i 

)<=0? (i 

) + (len 

) : (1 


) - 1) 


索引 值 加 1 即 可 转换 为 正 数 位 置 ， 如 Text_pos 的 实现 所 示 ， 该 函数 将 其 
位 置 参数 转换 为 索引 值 ， 而 后 义 将 索引 值 转换 为 一 个 正 数位 置 。 


(functions 


198) = 

int Text_pos(T s, int i) { 
assert(s.len >= 0 && s.str); 
1 = idx(i, s.len); 
assert(i >= 0 && i <= s.len); 


return i+ 1; 


Text_pos 中 的 第 一 个 断言 实现 了 下 述 已 检查 的 运行 时 错误 : 所 有 Text T 
实例 的 len 字 段 必 须 为 非 负 值 、str 字 段 不 能 为 NULL。 第 二 个 断言 实现 
的 已 检查 的 运行 时 错误 是 : 位置 i \ 已 转换 为 索引 ) 应 该 对 应 于 s 中 一 
个 有 效 位 置 。 如 采 s 有 N 个 字符 ， 有 效 索引 值 从 0 到 N-1， 而 有 效 正 数位 
置 从 1 到 N+1， 这 也 是 第 二 个 断言 可 以 接受 i 为 N 的 原因 。 


Text_box 和 Text_sub 都 建立 并 返回 新 的 摘 述 符 。 


(Functions 


198) += 
T Text_box(const char *str, int len) { 


T text; 


assert(str); 
assert(len >= 0); 
text.str = str; 
text.len = len; 


return text; 


Text_sub 类 似 ， 但 它 必须 将 位 置 参数 转换 为 索引 ， 以 便 计 算 结果 
字符 串 的 长 度 : 


(functions 


198) += 


T Text_sub(T s, int i, int j) { 


T text; 


(convert 


i and 


j to indices in 


@..s.len 199) 


text.len = j - i; 


text.str = s.str + i; 


return text; 


如 代码 所 示 ， 在 i 利 j 由 位 置 转换 为 索引 之 后 ， 在 ji 和 j 之 间 有 j -i 个 字符 。 
转换 代码 还 会 在 适当 情况 下 交换 i 和 j 的 值 ， 使 得 i 总 是 指定 了 最 左 侧 字 
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(convert 


i and 


j to indices in 


0..s.len 199) = 


assert(s.len >= 0 && s.str); 


1 = idx(i, s.len); 


j = idx(j, s.len); 
if (i > j) { int t = as i=j; j=t;} 


assert(i >= 0 && j <= s.len); 


最 后 一 个 字符 右 侧 的 位 置 转换 为 一 个 不 存在 字符 的 索引 ， 上 靳 言 可 以 接 
受 这 种 位 置 。 仅 当 转 换 得 到 的 索引 值 不 用 于 获取 或 存储 字符 时 ， 才 使 
用 <convert i and j to indices in 0..s.len 279 > 代码 块 。 例 如 ，Text_sub 仅 
使 用 该 代码 块 计 算 子 串 的 起 始 位 置 和 长 度 。 其 他 的 Text 函 数 仅 在 检查 
过 i 和 j 为 有 效 索 引 后 才 使 用 i 和 0j 的 结果 值 。 


Text_put 将 字符 串 复 制 到 串 空 间 中 ，Text_get 从 串 空 间 中 获取 字符 
串 。 因 为 几 个 原因 ，Text 实 现 了 目 身 的 分 配 函 数 *alloc(int len)， 它 可 以 
在 串 空 间 中 分 配 len 个 字 季 。 首 先 ，alloc 避 免 了 通用 分 配 屡 中 使 用 的 内 
存 块 首部 (block header) ， 这 样 它 可 以 将 字符 串 在 内 存 中 安排 到 相 邻 
的 位 置 。 这 使 得 可 以 对 Text_dup 和 Text_cat 进 行 儿 个 重要 的 优化 。 其 
次 ，alloc 可 以 忽略 对 齐 约 束 ， 字 符 实 际 上 是 不 需要 对 齐 约束 的 。 最 
Jn, alloc% 5 Text_save Fil Text_restore 4E ° allocf£ 16.2.2 1 FF un tii 
述 ， 此 外 还 有 Text_save 和 Text_restore。 


在 需要 分 配 串 空间 的 少数 Text 函 数 中 ，Text_put 是 比较 典型 的 。 它 
调用 alloc 分 配 所 需 的 内 存 空间 ， 将 其 参数 字符 串 复 制 到 该 空间 中 ， 并 
返回 适当 的 描述 符 : 


(functions 
198) += 


T Text_put(const char *str) { 


T text; 


assert(str); 
text.len = strlen(str); 
text.str = memcpy(alloc(text.len), str, text.len); 


return text; 


Text_put 调 用 memcpy 而 不 是 strcpy 来 复制 字符 串 ， 因 为 它 不 能 同 text.str 
附加 0 字符 。 


Text_get 所 做 的 刚好 相反 : 它 将 字符 串 从 串 空 间 复制 到 一 个 C 风 格 
的 字符 串 。 如 果 指 癌 C 风 格 字符 串 的 指针 为 NULL，Text_get 调 用 Mem 
的 通用 分 配 需 来 为 字符 串 及 其 结束 0 字符 分 配 内 存 空间 ; 


(Functions 


198) += 
char *Text_get(char *str, int size, T s) { 
assert(s.len >= 0 && s.str); 
if (str == NULL) 
str = ALLOC(s.len + 1); 
else 
assert(size >= s.len + 1); 
memcpy(str, s.str, s.len); 
str[s.len] = '\O'; 


return str; 


Text_get 调 用 memcpy 而 不 是 strncpy 来 复制 字符 串 ， 因 为 它 必须 复制 s 中 
可 能 出 现 的 0 字符 。 


16.2.1 FR RPH 


Text_dup 生 成 其 Text_T 参 数 s 的 n 个 副本 ， 并 将 其 连接 起 来 。 


(Functions 


198) += 

T Text_dup(T s, int n) { 
assert(s.len >= 0 && s.str); 
assert(n >= 0); 


(Text_dup 


200) 
} 


其 中 有 几 个 重要 的 特例 ， 可 以 避免 分 配 s 的 n 个 副本 。 例 如 ， 如 有 果 s 为 空 
串 或 n 为 0， 则 Text_dup 返 回 空 串 ， 如 果 n 为 1，Text_dup 只 返回 s 即 可 : 


(Text_dup 


200) = 
if (n == © || s.len == 0) 


return Text_null; 


if (SS 


return s; 


如 果 s 是 最 近 创 建 的 ， 那 么 s.str 可 能 刚好 位 于 串 空间 的 末端 ， 即 ，s.str + 
s.len 可 能 等 于 下 一 个 空 闻 字 节 的 地 址 。 倘 车 如 此 ， 只 需要 分 配 s 的 n - 1 
个 副本 ， 因 为 原来 的 s 可 以 充当 第 一 个 副本 。16.2.2 节 定义 的 宏 
isatend(s, n)， 可 以 检查 s.str 是 否 位 于 串 空间 的 末端 ， 以 及 串 空间 中 是 否 
还 有 空闲 空间 可 容纳 至 少 n 个 字符 。 


(Text_dup 


200) += 
{ 

T text; 

char *p; 

text.len = n*s.len; 

if (isatend(s, text.len - s.len)) { 
text.str = s.str; 
p = alloc(text.len - s.len); 
se: 

} else 
text.str = p = alloc(text.len); 

for ( ; n-- > 0; p += s.len) 
memcpy(p, s.str, s.len); 


return text; 


Text_cat 返 回 两 个 字符 串 S1 和 s2 连 接 的 结果 。 


(Functions 


180) += 

T Text_cat(T s1, T s2) { 
assert(si.len >= © && si.str); 
assert(s2.len >= © && s2.str); 


(Text_cat 


201) 


类 似 于 Text dup， 其 中 有 几 个 重要 的 特例 ， 可 以 避免 分 配 内 存 。 首 
先 ， 如 果 sl 或 s2 中 有 一 个 为 空 串 ，Text_cat 可 以 只 返回 男 一 个 描述 符 : 


(Text_cat 


201) = 

if (si.len == 0) 
return s2; 

if (s2.len == 0) 


return s1; 


s1 和 s2 可 能 已 经 是 相 邻 的 ， 在 这 种 情况 下 Text_cat 可 以 返回 s1 作 为 合并 
后 的 结果 : 


(Text_cat 


201) += 


if (si.str + si.len == s2.str) { 
si.len += s2.len; 


return s1; 


O 


如 果 s1 位 于 串 空间 的 末端 ， 那 么 
必须 复制 : 


\ 需 要 复制 s2， 否 则 ， 两 个 字符 串 都 


N 


(Text_cat 


201) += 
{ 
T text; 
text.len = si.len + s2.1len; 
if (isatend(s1, s2.len)) { 
text.str = si.str; 
memcpy(alloc(s2.len), s2.str, s2.len); 
} else { 
char *p; 
text.str = p = alloc(si.len + s2.len); 
memcpy(p, si.str, si.len); 


memcpy(p + si.len, s2.str, s2.len); 
} 


return text; 


Text_reverse 返 回 其 参数 s 的 一 个 副本 ， 但 其 中 字符 的 顺序 与 s 相 
反 ， 该 范 数 只 有 两 个 重要 特例 ， 即 为 空 串 和 s 只 有 一 个 字符 时 : 


(Functions 


198) += 
T Text_reverse(T s) { 
assert(s.len >= 0 && s.str); 
if (s.len == 0) 
return Text_null; 
else if (s.len == 1) 
return s; 
else { 
T text; 
char *p; 
int i = s.len; 
text.len = s.len; 
text.str = p = alloc(s.len); 
while (--i >= 0) 
*p++ = s.str[i]; 


return text; 


Text_map 的 实现 类 似 于 Str_map 的 实现 。 首 先 ， 它 使 用 from 和 to 字 
符 串 建立 一 个 数组 来 映射 字符 ， 给 出 一 个 输入 字符 c，map[c] 即 为 输出 
字符 串 中 对 应 于 c 的 字符 。map 初 始 化 时 ， 对 所 有 k 都 将 map[ 攻 设置 为 
k， 然 后 以 from 中 的 字符 为 索引 ， 将 map 中 的 元 素 设置 为 to 中 对 应 的 字 
符 : 


(rebuild 


map 202) = 
int k; 
for (k = 0; k < (int)sizeof map; k++) 
map[k] = k; 
assert(from->len == to->len); 
for (k = 0; k < from->len; k++) 
map[ (unsigned char)from->str[k]] = to->str[k]; 


inited = 1; 


在 map 初 始 化 之 后 ，inited 标 志 设 置 为 1，inited 用 于 实现 下 述 已 检查 的 
运行 时 错误 : 第 一 次 调用 Text_map 时 ， 指 定 的 fom 和 to 字符 串 必 须 不 
是 NULL: 


(functions 


198) += 
T Text_map(T s, const T *from, const T *to) { 
static char map[256]; 


static int inited = 0; 
assert(s.len >= 0 && s.str); 
if (from && to) { 


(rebuild 


map 202) 


} else { 
assert(from == NULL && to == NULL); 
assert(inited); 
} 
if (s.len == 0) 
return Text_null; 
else { 
T text; 
int 1; 
char *p; 
text.len = s.len; 
text.str = p = alloc(s.len); 
for (i = 0; i < s.len; i++) 
*p++ = map[(unsigned char)s.str[i]]; 


return text; 


Str_map 并 不 需要 inited 标 志 ， 因 为 Strt_map 不 可 能 将 一 个 字符 映射 
到 0 字符 ， 通 过 上 断言 检查 map['a] 非 堆 ， 即 足以 实现 已 检查 的 运行 时 错 
误 (参见 15.3.1 节 ) 。 但 Text_map 人 允许 所 有 可 能 的 映射 ， 因 而 不 能 使 用 
map 中 的 一 个 值 来 实现 该 检查 。 


Text_cmp 比 较 两 个 字符 串 sS1 和 s2 ， 并 根据 sS1 小 于 、 等 于 或 大 于 
sS2， 分 别 返 回 一 个 小 于 零 、 等 于 零 或 大 于 零 的 值 。 重 要 的 特例 是 s1 和 
s2 指 向 同一 字符 串 时 ， 在 这 种 情况 下 短 的 字符 串 小 于 长 的 。 同 样 地 ， 
当 一 个 字符 串 是 另 一 个 字符 溃 的 前 缀 时 ， 较 短 的 较 小 。 


(Functions 


198) += 
int Text_cmp(T si, T s2) { 
assert(si.len >= 0 && si.str); 
assert(s2.len >= 0 && s2.str); 
if (si.str == s2.str) 
return si.len - s2.len; 
else if (si.len < s2.len) { 
int cond = memcmp(si1.str, s2.str, si.len); 
return cond == © ? -1 : cond; 
} else if (s1.len > s2.len) { 
int cond = memcmp(si1.str, s2.str, s2.len); 
return cond == © ? +1 : cond; 
} else 


return memcmp(si.str, s2.str, si.len); 


16.2.2 Ae 


Text 实 现 其 自身 的 内 存 分 配器 ， 这 样 在 Text_dup 和 Text_cat 中 它 可 
以 利用 相 令 的 字符 串 。 由 于 串 空间 只 包含 字符 ，Text 的 分 配器 还 可 以 
避免 内 存 块 首 部 结构 和 对 齐 问 题 ， 能 够 省 空间 。 该 分 配套 是 第 6 章 描 
述 的 内 存 池 分 配 需 的 一 种 简单 变 体 。 串 空间 束 如 同一 个 内 存 池 ， 其 中 
已 分 配 的 大 内 存 块 位 于 从 head 发 出 的 链表 上 : 


(data 


198) += 

static struct chunk { 
struct chunk *link; 
char *avail; 
char *limit; 


} head = { NULL, NULL, NULL }, *current = &head; 


limit Beta [A FRR RPE, avail Ta, 
link#s [A] FR—SA FER, ANF EBS AED © currents la)“ By” A 
存 块 ， 内 存 分 配 操作 在 该 内 存 块 中 进行 。 上 述 的 定义 将 current 初 始 化 
为 指向 一 个 零 长 度 内 存 块 ， 第 一 次 分 配 会 同 head 附 加 一 个 新 内 存 块 。 


alloc 从 当前 内 存 块 分 配 len 个 字 节 ， 或 分 配 一 个 至 少 为 1OKB 的 新 
内 存 块 : 


(static functions 


204) = 
static char *alloc(int len) { 

assert(len >= 0); 

if (current->avail + len > current->limit) { 
current = current->link = 

ALLOC(sizeof (*current) + 10*1024 + len); 

Current->avail = (char *)(current + 1); 
current->limit = current->avail + 10*1024 + len; 


current->link = NULL; 


} 
current->avail += len; 


return current->avail - len; 


j 


current->avail 是 串 空间 末端 第 一 个 空 几 字 节 的 地 址 。 对 于 一 个 Text_T 
实例 s 来 说 ， 如 果 s.str + s.len 等 于 current->avail， 那 么 s 束 位 于 串 空 间 的 
末端 。 因 而 宏 isatend 定 义 如 下 : 


(macros 
198) += 


#define isatend(s, n) ((s).str+(s).len == current->avail\ 


&& Current->avail + (n) <= current->limit) 


Text_dup 和 Text_cat 可 以 利用 出 现在 串 空间 末端 的 字符 串 ， 只 要 当前 内 
存 块 中 还 包含 足够 的 空 几 空间 可 满足 要 求 即 可 ， 这 解释 了 isatend 第 二 
个 参数 的 用 途 。 


Text_save 和 Text_restore 回 客户 程序 提供 了 一 种 方法 ， 可 以 保存 和 
恢复 溃 空 间 末 端的 位 置 ， 该 位 置 由 current 和 current->avail 的 值 给 出 。 
Text_save 返 回 一 个 不 透明 指针 ， 指 向 下 述 结构 的 实例 。 


(types 
205) = 


struct Text_save_T { 


struct chunk *current; 


char *avail; 


}; 
该 结构 可 以 给 出 current 和 current->avail 的 值 。 


(functions 


198) += 
Text_save_T Text_save(void) { 


Text_save_T save; 


NEW(save); 

save->current = current; 
save->avail = current->avail; 
alloc(1); 

return save; 


} 


Text_save 调 用 alloc(T) 在 串 空 间 中 创建 一 个 “ 洞 ”， 使 得 对 于 在 洞 之 前 分 
配 的 任何 字符 串 ， 调 用 isatend 都 会 失败 。 因 而 ， 如 果 将 返回 给 客户 程 
序 的 串 空 间 末 端 地 址 值 作为 边界 ， 是 不 可 能 有 某 个 字符 串 路 越 这 一 边 
界 的 。 


Text_restore 恢 复 current 和 current->avail 的 值 ， 释 放 Text_save_T 结 


构 并 将 *save 清 零 ， 并 释放 当前 内 存 块 之 后 所 有 的 其 他 内 存 块 。 


(Functions 


198) += 
void Text_restore(Text_save_T *save) { 


struct chunk *p, *q; 


assert(save && *Save); 
Current = (*save)->current; 
current->avail = (*save)->avail; 
FREE(*save); 
for (p = current->link; p; p =q) Ht 
q = p->link; 
FREE(p); 
} 


current->link = NULL; 


16.2.3 “分析 字符 串 


Text 导 出 的 其 余 函 数 都 用 于 检查 字符 串 ， 这 些 函 数 都 不 会 分 配 新 
的 字符 串 。 


Text_chr 在 s[i;j] 中 查找 最 左 侧 的 茶 个 指定 字符 : 


(Functions 


198) += 
int Text_chr(T s, int i, int j, int c) { 


(convert 


1 and 
j to indices in 


@..s.len 199) 
for (; i< j; i++) 
if (s.str[i] == c) 
return i + 1; 


return 0; 


如 有 果 s.str[ 等 于 c，i+1 即 为 s 中 该 字符 左 侧 的 位 置 。Text_rchr 的 处 理 过 
程 类 似 ， 但 它 碍 找 子 串 中 最 右 侧 出 现 的 字符 c: 


(functions 
198) += 
int Text_rchr(T s, int i, int j, int c) { 
(convert 
i and 


j to indices in 


@..s.len 199) 


while (j > i) 


if (s.str[--j] == c) 
return j + 1; 


return 0; 


Text_upto 和 Text_rupto 类 似 Text_chr 和 Text_rchr， 但 它们 会 在 字符 
串 中 查找 某 个 字符 集合 (通过 一 个 Text_T 实 例 指 定 ) 中 的 任意 字符 。 


(functions 


198) += 
int Text_upto(T s, int i, int j, T set) { 
assert(set.len >= 0 && set.str); 


(convert 


i and 


j to indices in 


@..s.len 199) 
for ( ; i< j; i++) 
if (memchr(set.str, s.str[i], set.len)) 
return i + 1; 
return 0; 
} 
int Text_rupto(T s, int i, int j, T set) { 


assert(set.len >= 0 && set.str); 


(convert 


i and 


j to indices in 


@..s.len 199) 
while (j > i) 
if (memchr(set.str, s.str[--j], set.len)) 
return j + 1; 
return 0; 


Í 


Str_upto 和 Str_rupto 使 用 了 C 库 函数 strchr 来 检查 s 中 的 某 个 字符 是 否 出 


字符 ， 因 此 它们 使 用 了 memchr 画 数 ， 该 贸 数 并 不 将 0 了 字符 解释 为 字符 
串 结 束 符 。 


Text_find 和 Text_rfind 在 s[i:j] 中 查找 字符 串 ， 这 两 个 函数 也 有 类 似 
的 问题 ， 这 些 画 数 在 Str 接 口中 对 应 的 变 体 函 数 使 用 了 strmmcmp 来 比较 子 
囊 ， 但 Text 接 口中 的 函数 必须 使 用 memcmp ， 以 便 处 理 0 字 符 。 
Text_find 在 s[i:j] 中 搜索 最 左 侧 出 现 的 子 串 str 时 ， 将 使 用 memcmp 函 数 。 
当 str 为 空 串 或 只 有 一 个 字符 时 ， 这 两 种 特例 值得 特别 注意 。 


(functions 


198) += 


int Text_find(T s, int i, int j, T str) { 


assert(str.len >= 0 && str.str); 


(convert 


i and 


j to indices in 


@..s.len 199) 
if (str.len == 0) 
return i+ 1; 
else if (str.len == 1) { 
for ( ; i< j; i++) 
if (s.str[i] == *str.str) 
return i+ 1; 
} else 
for ( ; i+ str.len <= j; i++) 
if (equal(s, i, str)) 
return i+ 1; 


return 0; 


(macros 


198) += 


#define equal(s, i, t 


JA 


(memcmp(&(s 
).str[i], (t 
).str, (t 


).len) == 0) 


在 一 般 情 况 下 ，Text_find 不 可 以 检查 超出 子 串 s[i:j] 边 界 的 字符 ， 这 也 
解释 了 for 循 环 中 的 结束 条 件 。 


Text_rfind 类 似 Text_find， 但 它 搜 索 最 右 侧 出 现 的 sr， 它 会 避免 检 
查 s[i:j] 之 前 的 字符 。 


(functions 
198) += 
int Text_rfind(T s, int i, int j, T str) { 


assert(str.len >= 0 && str.str); 


(convert 
i and 
j to indices in 
@..s.len 199) 


if (str.len == 0) 


return j + 1; 


else if (str.len == 1) { 
while (j > i) 
if (s.str[--j] == *str.str) 
return j + 1; 
} else 
for ( ; j - str.len >= i; j--) 
if (equal(s, j - str.len, str)) 
return j - str.len + 1; 


return 0; 


Text_any 查 看 s 中 位 置 右 侧 的 字符 ， 如 果 该 字符 出 现在 set 中 ， 则 返 
回 Text_pos(s, i)+1 ° 


(functions 


198) += 
int Text_any(T s, int i, T set) { 
assert(s.len >= 0 && s.str); 
assert(set.len >= 0 && set.str); 
1 = idx(i, s.len); 
assert(i >= 0 && i <= s.len); 
if (i < s.len && memchr(set.str, s.str[i], set.len)) 
return i + 2; 


return 0; 


当 s[i 在 set 中 时 ，Text_any 返 回 i+ 2， 因 为 i+ 1 是 s[ 左 侧 的 位 置 匡 , 
此 i + 2 是 si 右 侧 的 位 置 。 


Text_many 和 Text_rmany 通 常 在 Text_upto 和 Text_rupto 之 后 调用 。 
它们 会 跨 过 一 连 串 属于 某 个 给 定 集合 的 字符 ， 并 返回 第 一 个 不 属于 该 


ZH 


集合 的 字符 左 侧 的 位 置 。Text_many 在 s[i:j] 中 从 左 同 右 进行 处 理 : 
(functions 
198) += 


int Text_many(T s, int i, int j, T set) { 
assert(set.len >= 0 && set.str); 
(convert 
1 and 


j to indices in 


©..s.len 199) 


if (i < j && memchr(set.str, s.str[i], 


set.len)) { 
do 
i++; 
while (i < j 
&& memchr(set.str, s.str[i], set.len)); 


return i + 1; 


return 0; 


Text_rmany 从 s[i:j] 末 端 开始 工作 ， 从 右 问 左 处 理 ， 跨 越 一 连 串 属 
于 set 的 字符 : 


(Functions 


198) += 
int Text_rmany(T s, int i, int j, T set) { 
assert(set.len >= © && set.str); 


(convert 


i and 


j to indices in 


@..s.len 199) 

if (j > i && memchr(set.str, s.str[j-1], set.len)) { 

do 
--j; 

while (j >= i 
&& memchr(set.str, s.str[j], set.len)); 
return j + 2; 

} 


return 0; 


当 索 引 j 对 应 的 字符 不 属于 set， 或 j 等 于 i - 1 时 ，do-while 循 环 将 结束 。 
在 前 一 种 情况 下 ，j + 2 是 “违例 ”字符 右 侧 的 位 置 ， 因 而 刚好 在 一 连 串 
属于 set 字 符 的 左 侧 。 在 第 二 种 情况 下 ，s[i:j] 完 全 由 set 中 的 字符 构成 ，j 
+ 2 位 于 s[i:j] 的 左 侧 。 


如 果 s[i:j] 开 始 于 字符 串 str，Text_match 会 跳 过 str。 类似 Text_find， 
Text_match 的 两 个 重要 特例 是 ，str 为 空 串 和 str 只 有 一 个 字符 的 情形 。 
Text_match 不 能 查看 s[i:j] 以 外 的 字符 ， 下 述 第 三 个 站 语句 中 的 条 件 ， 确 
保 了 只 检查 s[i:j] 中 的 字符 。 


(functions 


198) += 
int Text_match(T s, int i, int j, T str) { 
assert(str.len >= © && str.str); 


(convert 
1 and 
j to indices in 


@..s.len 199) 
if (str.len == 0) 
return i+ 1; 
else if (str.len == 1) { 
if (i < j && s.str[i] == *str.str) 


return i + 2; 


} else if (i + str.len <= j && equal(s, i, str)) 
return i+ str.len + 1; 


return 0; 


Text_rmatch 类 似 Text_match， 如 果 s[i:j 以 字符 串 str 结 束 ， 那 么 该 函数 
会 返回 str 之 前 的 位 置 ， 该 函数 不 会 检查 s[i:j] 之 前 的 字符 。 


(Functions 


198) += 
int Text_rmatch(T s, int i, int j, T str) { 
assert(str.len >= © && str.str); 


(convert 
1 and 
j to indices in 


@..s.len 199) 
if (str.len == 0) 
return j + 1; 
else if (str.len == 1) { 
if (j > i && s.str[j-1] == *str.str) 
return j; 
} else if (j - str.len >= i 


&& equal(s, j - str.len, str)) 


return j - str.len + 1; 


return 0; 


16.2.4 ”转换 函数 


最 后 一 个 函数 是 Text_fmt， 这 是 一 个 格式 转换 函数 ， 供 Fmt 接 口 导 
出 的 函数 使 用 。Text_fmt 用 于 输出 Text T， 其 风格 与 printf 的 %s 格 式 符 
相同 。 它 只 是 调用 Fmt_puts， 像 printf 处 理 C 字 符 串 那样 ， 来 为 Text_T 
解释 flags、width 和 precision ° 


(Functions 


198) += 
void Text_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 


E483 


assert(app && flags); 

s = va_arg(*app, T*); 

assert(s && s->len >= 0 && s->str); 
Fmt_puts(s->str, s->len, put, cl, flags, 


width, precision); 


不 同 于 Text 接 口中 的 所 有 其 他 函数 ，Text_fmt 会 消耗 指向 Text_T 实 例 的 
一 个 指针 ， 而 不 是 Text_T 的 一 个 实例 。Text_T 实 例 很 小 ， 通 彰 是 一 个 
双 字 ， 但 缺乏 某 种 可 移植 的 方法 ， 使 得 我 们 能 够 在 可 变 长 度 参 数列 表 
中 将 双 字 长 度 的 结构 实例 与 double 区 分 开 。 因 此 ， 一 些 C 语 言 实现 无 法 
在 可 变 长 度 参数 列表 中 按 值 可 靠 地 传递 双 字 结 构 实例 。 传 递 一 个 指 同 
Text_T 实 例 的 指针 ， 在 所 有 的 实现 中 都 避免 了 这 些 问 题 。 


16.3 扩展 阅读 


Text T 的 语义 和 实现 都 类 似 于 SNOBOL4[Griswold , 1972] 和 
Icon[Griswold and Griswold，1990] 中 的 字符 串 。 这 两 种 语言 都 是 通用 
字符 串 处 理 语言 ， 其 内 建 特性 与 Text 接 口 导 出 的 函数 很 相似 。 


类 似 的 表示 和 操作 字符 串 的 技术 ， 已 经 在 编译 器 和 其 他 分 析 字 符 
串 的 应 用 程序 中 长 期 使 用 ，XPL 编 译 强 生成 器 [Mckeeman, Horning and 
Wortman，1970] 是 一 个 早期 的 例子 。 在 所 有 Text_T 都 已 知 的 系统 中 ， 
可 使 用 垃圾 收集 技术 来 管理 串 空间 。Icon 使 用 XPL 的 垃圾 收集 算法 ， 
来 回收 不 被 任何 已 知 的 Text_T 实 例 引 用 的 串 空间 [Hanson，1980]。 它 
将 已 知 的 Text_T 实 例 包 含 的 字符 串 复 制 到 串 空间 的 起 始 处 ， 来 使 字符 
串 的 存储 更 为 紧 恋 。 


[Hansen ，1992] 描 述 了 字符 串 的 一 种 完全 不 同 的 表示 方法 ， 其 中 
的 子 串 描述 符 承 载 了 足够 的 信息 ， 可 以 检索 到 子 串 所 处 的 较 大 字符 
串 。 其 中 需要 说 明 的 一 点 是 ， 这 种 表示 使 得 字符 串 可 以 向 左右 扩展 。 


Rope 是 男 一 种 字符 串 表示 方法 ， 其 中 字符 串 由 子 串 构成 的 树 来 表 
示 [Boehm, Atkinson and Plass，1995]rope 中 的 字符 可 以 在 线性 时 间 内 遍 


历 ， 这 几乎 与 TextT 或 C 字 符 串 相同 ， 但 子 串 操作 需要 花费 对 数 时 
间 。 但 字符 串 连 接 要 快 得 多 : 连接 两 个 rope 只 需 人 花费 常数 时 间 。rope 
的 另 一 种 有 用 特性 是 ，rope 可 以 通过 一 个 生成 第 i 个 字符 的 函数 来 描 
yit [0] 


16.4 习题 


16.1 £515.20 H jäutHids.c, EH Texst o 


16.2 ”Text_save 和 Text_restore 不 是 很 健壮 。 例 如 ， 下 列 操作 序列 
是 错误 的 ， 但 该 错误 未 被 发 现 。 


Text_save_T X, Y; 


x = Text_save(); 
y = Text_save(); 
Text_restore(&x); 


Text_restore(&y); 


A Val FA Text_restore(&x)Z Ja, yE, AWN EH Tx mA 
串 空间 位 置 。 修 改 Text 的 实现 ， 使 得 该 错误 成 为 一 个 已 检查 的 运行 时 


HR 


16.3 Text_save 和 Text_restore 只 人 允许 栈 式 分 配 。 垃 圾 收集 可 能 更 
好 些 ， 但 要 求 所 有 可 访问 的 Text_T 实 例 都 是 已 知 的 。 设 计 Text 接 口 的 


一 个 扩展 版 本 ， 其 中 包含 一 个 用 来 “注册 ”Text_T 实 例 的 函数 ， 男 一 个 
函数 Text_compact 使 用 [Hanson，1980] 中 描述 的 方案 ， 将 所 有 已 注册 的 
Text_T 实 例 引 用 的 字符 串 “ 紧 缩 * 到 串 空间 的 起 始 处 ， 以 回收 被 未 注册 
的 Text_T 实 例 占 据 的 空间 。 


16.4 扩展 搜索 字符 串 的 函数 ， 如 Text_find 和 Text_ match， 使 之 能 
够 接受 Text_T 参 数 来 指定 正则 表达 式 ， 而 不 是 只 搜索 普通 的 字符 串 。 
[Kernighan and Plauger，1976] 摘 述 了 正则 表达 式 ， 以 及 用 于 匹配 正则 
表达 式 的 目 动机 的 实现 。 


16.5 “基于 [Hansen，1992] 描 述 的 子 串 模型 ， 设 计 一 个 接口 并 实 
现 。 


[1] 指 由 Text 接 口 的 实现 为 字符 串 分 配 的 内 存 空间 ， 本 章 中 多 处 引 
用 ， 故 重新 命名 一 个 名 称 。 


[2] 原文 中 所 谓 的 位 置 ， 十 指 字 符 之 间 的 位 置 ， 不 是 指 字 符 的 位 
置 ， 字 符 实 际 上 没有 位 置 的 。 一 一 译 痢 广 


第 17 章 扩展 精度 算术 


在 整数 位 宽 为 32 位 的 计算 机 上 上， 能 够 表示 从 -2 147 483 648 一 +2 
147 483 647 的 有 符号 整数 (使 用 二 进 制 补 码 表示 ) ， 以 及 从 0 一 4 294 
967 295 的 无 符号 整数 。 对 很 多 (可 能 是 大 多 数 ) MAMA Ri, Lut 
范围 已 经 足够 大 了 ， 但 有 一 些 应 用 程序 需要 更 大 的 表示 范围 。 整 数 的 
表示 范围 相对 较 小 ， 但 可 以 表示 其 中 每 一 个 整数 值 。 浮 点 数 的 表示 苑 
围 很 丐 大， 但 只 能 表示 其 中 相对 较 少 的 值 。 如 采 对 精确 值 取 近似 是 可 
接受 的 ， 那 么 可 以 使 用 浮 点 数 ， 例 如 许多 科学 应 用 ， 但 在 需要 使 用 一 
个 很 大 的 范围 中 所 有 的 整数 值 时 ， 就 不 能 使 用 浮 点 数 了 。 


本 章 描述 了 一 个 很 底层 的 接口 XP， 它 导出 了 一 些 函 数 ， 可 用 于 固 
定 精 度 扩展 整数 的 算术 操作 。 可 以 表示 的 值 只 受 限 于 可 用 的 内 存 。 该 
接口 用 来 服务 于 较 高 级 的 接口 ， 如 下 两 草 描述 的 接口 。 这 些 高 级 接口 
的 设计 ， 使 之 可 用 于 需要 巨大 范围 整数 值 的 应 用 程序 中 。 


17.1 接口 


一 个 n 个 数位 的 无 符号 整数 x 可 以 表示 为 下 壕 多 项 式 .: 


又 一 Xn_1 bn-I +X)-9 pb? Piss .十 X1 bt +Xo 


其 中 b 为 基数 ，0<xi <b。 在 无 符号 整数 位 宽 32 位 的 计算 机 上 ，m 为 
32，b 为 2， 每 个 系数 xi 表示 为 〈32 个 比特 位 中 ) 对 应 的 比特 位 。 这 种 


表示 可 以 推广 ， 用 于 以 任意 基数 来 表示 无 符号 整数 。 人 例如， 如果 b 为 
10， 那 么 每 个 x; 是 0~9 (E) 的 一 个 整数 ，x 可 以 表示 为 一 个 数组 。 数 
字 2 147 483 647 可 以 表示 为 下 列 数 组 


unsigned char x[] = { 7, 4, 6, 3, 8, 4, 7, 4, 1, 2 }; 
其 中 Xi 保存 在 x 自 中 。 数 位 x; 在 x 中 出 现 的 顺序 ， 是 最 低位 优先 ， 这 是 
实现 算术 操作 最 方便 的 顺序 。 


选择 较 大 的 基数 可 以 节省 内 存 ， 因 为 基数 越 大 ， 数 位 的 范围 越 
大 。 例 如 ， 如 果 b 为 216 =65 536， 每 个 数位 是 一 个 0~65 535 〈 含 ) 的 
数 ， 只 需要 两 个 数位 (4 个 字 节 ) 即 可 表示 2 147 483 647: 


unsigned short x[] = { 65535, 32767 }; 
而 以 下 包含 64 个 数位 的 十 进 制 数 


349052951084765949147849619903898133417764638493387843990 
820577 


可 以 表示 为 一 个 14 个 元 素 (28 个 字 节 ) 的 数组 : 


{ 38625, 9033, 28867, 3500, 30620, 54807, 4503, 
60627, 34909, 43799, 33017, 28372, 31785, 8 }. 


如 果 b 为 2* 而 k 是 C 语 言 中 某 种 预定 义 无 符 号 整数 类 型 的 位 宽 ， 那 
么 可 以 使 用 较 小 的 基数 而 不 会 混 费 空间 。 可 能 更 重要 的 一 点 是 ， 较 大 
的 基数 会 使 某 些 算术 操作 的 实现 复杂 化 。 如 下 文 详 述 ， 如 果 unsigned 
long 类 型 可 以 容纳 b3 -1， 那 么 即 可 避免 这 种 复杂 化 。XP 使 用 的 b 值 为 28 


号 字符 中 ， 因 为 标准 C 语 言 傈 证 unsigned 
long 位 宽 人 至 少 为 32， 其 中 至 少 包 含 3 个 字 节 ， 因 此 unsigned long 可 以 容 


纳 b3 -1=224 -1。 使 用 b=28 ， 需 要 花费 4 个 字 世 表示 2 147 483 647: 


unsigned char x[] = { 255, 255, 255, 127 }; 


需要 27 个 字 市 表示 上 述 的 64 个 数位 的 十 进 制 数 : 


{ 225, 150, 73, 35, 195, 112, 172, 13, 156, 119, 23, 214, 151, 
17, 


211, 236, 93, 136, 23, 171, 249, 128, 212, 110, 41, 124, 8 


XP Ojan ARRAT : 
(xp.h 
》 三 

#ifndef XP_INCLUDED 


#define XP_INCLUDED 


#define T XP_T 


typedef unsigned char *T; 
(exported functions 


214) 


#undef T 


#endif 


即 XP_T 征 一 个 由 无 符号 字符 构成 的 数组 ， 包 含 了 一 个 n 位 数 的 的 各 个 
数位 ， 基 数 为 28 ， 最 低位 优先 。 


如 下 所 述 ，XP 接 口中 的 函数 以 n 为 输入 参数 ，XP_T 实 例 态 输入 /得 
出 参数 ， 这 些 数组 必须 足够 大 以 便 容 纳 n 个 数位 。 辐 该 接口 中 任何 函数 
传递 的 XP_T 实 例 为 NULL、XP_T 实 例 容量 太 小 、 或 长 度 n 不 是 正 值 ， 
都 是 未 检查 的 运行 时 错误 。XP 坪 一 个 危险 的 接口 ， 因 为 省 略 大 部 分 已 
检查 的 运行 时 错误 。 这 种 设计 有 两 个 原因 。XP 的 目标 客户 程序 是 较 高 
级 的 接口 ， 这 些 接口 很 可 能 已 经 规定 并 实现 了 必要 的 已 检查 的 运行 时 
普 座 。 其 次 ，XP 接 口 要 尽 可 能 简单 ， 以 便 将 其 中 一 些 函 数 以 汇编 语言 
实现 (如果 有 性 能 方面 的 要 求 ) 。 后 一 种 考虑 ， 是 XP 函数 不 进行 内 存 
分 配 的 原因 。 


以 下 函数 


(exported functions 


214) = 
extern int XP_add(int n, T z, T x, T y, int carry); 


extern int XP_sub(int n, T z, T x, T y, int borrow); 


实现 了 z=x+ytcarry 和 z=x-y-borrow。 在 此 处 以 及 下 文 ，x、y 和 z 指 代 由 
数组 x、y 和 z 表 示 的 整数 值 ， 假 定 这 些 整 数值 包含 n 个 数位 。carry 和 
borrow 必 须 为 0 或 1。XP_add 将 z[0..n-H 设 置 为 x+y+carry 的 值 “和 值 最 
多 包含 n 个 数位 ) ， 并 返回 最 高 有 效 位 的 进位 输出 。XP_sub 将 z[0.n - 


1] 设 置 为 x-y-borrow 的 值 ( 差 值 最 多 n 个 数位 ) ， 并 返回 最 高 有 效 位 的 
借 位 输出 。 因 而 ， 如 果 XP_add 返 回 1， 则 n 个 数位 无 法 容纳 x+y+carry 的 
值 ， 而 如 果 XP_sub 返 回 1， 那 么 y>x。 如 果 只 考虑 这 两 个 画 数 ，x、y 或 
z 中 任意 多 个 参数 ， 均 可 为 同一 XP_T 实 例 。 


(exported functions 


214) += 


extern int XP_mul(T z, int n, T x, int m, T y); 


上 述 函 数 实 现 了 z=z+xx*y， 其 中 x 有 n 个 数位 ，y 有 m 个 数位 。z 几 须 足 以 
容纳 n+m 个 数位 ，XP_mul 将 n+m 个 数位 的 乘积 x*y， 加 到 z 上 。 当 z 初 始 
化 为 0 时 ，XP_mul 将 z[0..nt+m-1] 设 置 为 x*+y。XP_mul 的 返回 值 ， 是 x 和 y 
的 乘积 最 高 有 效 位 的 进位 输出 。 如 有 果 z 与 x 或 y 为 同一 XP_T 实 例 ， 则 造 
成 未 检查 的 运行 时 错误 。 


XP_mul 说 明了 const 限 定 符 可 以 发 挥 作用 的 情形 ，const 有 助 于 标 
识 输入 /输出 参数 ， 还 可 以 作为 文档 ， 以 防止 此 类 运行 时 错误 。 下 壕 声 
明 


extern int XP_mul(T z, int n, const unsigned char *x, 


int m, const unsigned char *y); 


明确 地 规定 了 XP_mul 从 x 和 y 读 取 并 写 入 到 z， 因 而 隐 舍 地 指出 了 z 不 应 
该 与 x 或 y 相 同 。 对 x 和 y 不 能 使 用 const T 的 语法 ， 因 为 这 将 意味 着 “ 指 癌 
unsigned char 的 常数 指针 ”， 而 不 是 我 们 预期 的 “ 指 癌 unsigned char 常 数 
的 指针 ” (02.40) 。 习 题 19.5 探 讨 了 能 够 与 const 限 定 符 正常 协作 
的 一 些 其 他 形式 的 T 定 义 。 


但 const 限 定 符 并 不 能 防止 同一 XP_T 实 例 分 别 作为 x 和 z (或 y 和 2z) 
传递 ， 因 为 unsigned char * 类 型 的 值 可 以 传递 给 const unsigned char * 类 
型 的 参数 。 但 const 的 这 种 用 法 ， 确 实 人 允许 将 一 个 const unsigned char * 
类 型 的 值 作为 x 和 y 传 递 ， 在 XP 接口 声明 的 上 述 XP_mul 画 数 中 ， 必 须 
使 用 类 型 转换 来 传递 这 些 值 。 在 XP 接口 中 ，const 的 少量 好 处 ， 很 难 平 
PETERS ERAS ° 


DA F EN 


(exported functions 


214) += 


extern int XP_div(int n, Tq, T x, int m, T y, T r,T tmp); 


实现 了 除法 : 它 计 算 了 gq=x/y 和 r=x mod y，q 和 x 有 n 个 数位 ，r 和 y 有 m 
个 数位 。 如 果 y 为 0，XP_div 返 回 0， 不 改变 q 和 r， 否 则 ， 它 将 返回 1 。 
tmp 必 须 能 够 容纳 至 少 n+tm+2 个 数位 。q 或 r 与 x 和 y 中 之 一 相同 、q 和 r 是 
同一 XP T 实 例 、tmp 能 够 容纳 的 数位 太 少 ， 都 是 未 检查 的 运行 时 错 
误 。 


DAF EKZ 
(exported functions 
214) += 


extern int XP_sum (int n, T z, T x, int y); 


extern int XP_diff (int n, T z, T x, int y); 


extern int XP_product (int n, T z, T x, int y); 


extern int XP_quotient(int n, T z, T x, int y); 


实现 了 n 个 数位 的 XP_T 实 例 x 和 单个 数位 的 整数 值 y (基数 28 ) 之 间 的 
加 法 、 减 法 、 乘 法 和 除法 。XP_sum 将 z[0..n - 1] 设 置 为 xty 的 值 ， 并 返 
回 最 高 有 效 位 的 进位 输出 。XP_diff 将 z[0..n - 1] 设 置 为 x-y 的 值 ， 并 返回 
最 高 有 效 位 的 借 位 输出 。 对 于 XP_sum 和 XP_diff，y 必 须 为 正 数 日 不 能 
大 于 基数 28 o 


XP_product 将 z[0..n - 1] 设 置 为 x*y 的 值 ， 并 返回 最 高 有 效 位 的 进位 
输出 ， 进 位 最 大 为 28 -1。XP_quotient 将 z[0..n - 1] 设 置 为 x/y 的 值 并 返回 
余数 x mod y， 余 数 最 大 为 y-1°。 对 于 XP_product 和 XP_quotient，y 不 能 
KTL 


(exported functions 


214) += 


extern int XP_neg(int n, T z, T x, int carry); 


ZKR. - 1] 设 置 为 ~x + carry 的 值 ， 并 返回 最 高 有 效 位 的 进位 
输出 。 在 carry 为 0 时 ，XPneg 实 现 了 取 反 (one's complement 
negation) ， 在 carry 为 1 时 ，XP_neg 实 现 了 求 补 (two's complement 


negation) 。 
XP_T 实 例 通 过 下 列 函 数 比较 


(exported functions 


) += 


extern int XP_cmp(int n, T x, T y); 
{Fx<y > x=yEixoy =P, HEB SIR SB. 0» EIA e 
可 以 用 下 列 函 数 对 XP_T 进 行 移 位 操作 : 


(exported functions 


214) += 

extern void XP_lshift(int n, T z, int m, T x, 
int s, int fill); 

extern void XP_rshift(int n, T z, int m, T x, 


int s, int fill); 


上 述 两 个 函数 分 别 将 x 左 移 / 右 移 s 个 比特 位 得 到 的 值 赋 值 给 z， 其 中 z 有 
n 个 数位 ，x 有 m 个 数位 。 当 n 大 于 m 时 ，x 高 位 缺失 的 那些 数位 ， 如 果 
进行 左 移 ， 则 其 中 的 比特 位 当做 0 处 理 ， 如 果 进 行 右 移 ， 其 中 的 比特 位 
当做 fi 处 理 。 空 出 的 比特 位 用 弗 ] 填 充 ， 纪 必须 为 0 或 1。 志 为 0 时 ， 
XP_rshift 实 现 了 逻辑 右 移 (logical right shift) ，fil 为 1 时 ，XP_rshift a] 
用 于 实现 算术 右 移 (arithmetic right shift) 。 


(exported functions 
214) += 


extern int XP_length (int n, T x); 


extern unsigned long XP_fromint(int n, T Z, 


unsigned long u); 


extern unsigned long XP_toint (int n, T x); 


XP_length 返 回 x 中 数位 的 数 日 ， 即 ， 它 返回 x[0..n-1] 中 最 高 非 零 数位 的 
索引 加 1。XP_fromint 将 z[ 0..n 1] 设置 为 u mod 28 并 返回 W289 ， 即 返 
回 u 中 z 无 法 容纳 的 那些 比特 位 。XPtont 返 回 x mod 
(ULONG_MAX+1)， 即 x 中 最 低 8 * sizeof(unsigned long) 个 比特 位 。 


RAR AXP REN A Be EF AF AB AXP _T 之 间 进 行 双 回转 换 。 


(exported functions 


214) += 
extern int XP_fromstr(int n, T z, const char *str, 
int base, char **end); 
extern char *XP_tostr (char *str, int size, int base, 


int n, T x); 


XP_fromstr 类 似 C 库 中 的 strtoul， 它 将 str 中 的 字符 串 解 释 为 以 base 为 基 
数 的 无 符号 整数 。 该 函数 忽略 字符 串 开 头 的 空 晶 字符， 并 处 理 其 后 以 
base 为 基数 的 一 个 或 多 个 数位 。 对 于 11~~36 的 基数 来 说 ，XP_fromstr 将 
小 写 或 大 写字 母 解释 为 大 于 九 的 数位 。base 小 于 2 或 大 于 36， 则 为 已 检 
查 的 运行 时 错误 。 


在 计算 str 指 定 的 整数 时 ， 将 使 用 通常 的 乘法 算法 ， 逐 位 累积 计 
算 ， 保 存 至 n 数 位 的 XP_T 实 例 z: 


for (p = str; *p Is a digit 


~ base*z 


+ *p's value 


函数 的 实现 中 ， 不 会 将 z 初 始 化 为 0， 客 户 程 序 必 须 正 确 地 初始 化 z 值 。 
在 一 系列 的 base * z 乘 法 运算 中 ， 当 第 一 次 出 现 非 零 进位 输出 时 ， 该 进 
位 输出 值 将 用 作 XP_fromstr 的 返回 值 ， 如 果 始 终 都 没有 非 零 进位 输 
出 ， 则 返回 0。 因 而 ， 如 果 z 无 法 容纳 str 指 定 的 数字 ， 则 XP_fromstr 将 
返回 非 零 值 。 


如 果 end 不 是 NULL， 芳 数 会 将 *end 指 同 XP_fromstr 的 解释 过 程 结 
束 的 那个 字符 ， 此 时 可 能 发 生 了 乘法 上 滋 或 扫 摘 到 非 数 字 字 和 人 符 。 如 采 
str 中 的 各 个 字符 不 是 基数 base 下 的 整数 ， 那 么 XP_fromstr 将 返回 0， 并 
将 *end 设 置 为 str (如 果 end 不 是 NULL) 。str 是 NULL ， 则 造成 已 检查 
的 运行 时 错误 。 


XP_tostr 将 x 在 基数 base 下 的 字符 表示 填充 到 str 中 (以 0 结尾 ) ， 并 
返回 str。x 将 设置 为 零 。 在 base 大 于 10 时 ， 大 写字 母 用 于 表示 大 于 9 的 
数位 。base 小 于 2 或 大 于 36， 则 为 已 检查 的 运行 时 错误 。str 为 NULL 或 
size 太 小 ， 也 是 已 检查 的 运行 时 错误 ，size 太 小 ， 是 指 x 的 字符 表示 加 
上 一 个 0 字符 ， 超 出 size 个 字符 的 情形 。 


17.2 ”实现 


(xp.c 


Y= 
#include <ctype.h> 
#include <string.h> 
#include "assert.h" 


#include "xp.h" 


#define T XP_T 


#define BASE (1<<8) 
(data 


229) 


(functions 


217) 


XP_fromint 和 XP_toint 说 明了 XP 函数 必须 执行 的 各 种 算术 操作 。 
XP_fromint 初 始 化 一 个 XP_T， 使 之 等 于 某 个 指定 的 unsigned long 值 : 


(functions 


217) = 


unsigned long XP_fromint(int n, T z, unsigned long u) { 


int i = 0; 


do 
z[i++] = u%BASE; 
while ((u /= BASE) > © && i < n); 
for (; i< n; i++) 
z[i] = 90; 
return u; 


} 


挛 格 来 说 ，u9%6BASE 不 是 必需 的 ， 因 为 对 z[ 的 赋值 隐 含 地 进行 了 模 操 
作 。 所 有 实现 算术 操作 的 XP 函数 都 执行 了 此 类 显 式 操作 ， 以 便 协 助 说 
明 画 数 使 用 的 算法 。 由 于 基数 是 2 的 常数 次 顺 ， 大 多 数 编译 闫 会 将 基数 
相关 的 乘法 、 除 法 、 取 模 转 换 为 等 效 的 左 移 、 右 移 、 逻 辑 与 。 


XP_toint 是 XP_fromint 的 朔 : 它 将 XP_T 的 最 低 8 * sizeof(unsigned 
long) 个 比特 位 当做 unsigned long 返 回 。 


(functions 


217) += 
unsigned long XP_toint(int n, T x) { 
unsigned long u = 0; 


int 1 = (int)sizeof u; 


if (i > n) 
i = n; 


while (--i >= 0) 


u = BASE*u + x[i]; 


return u; 


一 个 非 零 的 n 数 位 XP_T， 如 果 其 最 高 位 部 分 是 一 个 或 多 个 连续 的 
0， 那 么 其 有 效 数位 的 数目 要 少 于 n。XP_length 返 回 有 效 数 位 的 数目 ， 
不 计算 最 高 有 效 位 之 前 的 0 数位 : 


(functions 


217) += 
int XP_length(int n, T x) { 
while (n > 1 && x[n-1] == 0) 
n--; 


return n; 


17.2.1 ”加 减法 


实现 加 减法 的 算法 ， 实 际 上 是 小 学 里 笔算 技巧 的 系统 化 再 现 。 假 
定 基 数 为 10， 下 述 例子 很 好 地 说 明了 加 法 z=x+y: 


加 法 的 过 程 从 最 低 有 效 位 到 最 高 有 效 位 进行 ， 在 本 例 中 ， 进 位 值 的 初 
台 值 为 0。 每 一 步 都 建立 和 值 S=carry+xi +y; ，z; 的 值 为 S modb， 新 的 
进位 值 为 Sb， 其 中 b 为 基数 ， 本 例 中 为 10。 顶 行 中 以 小 号 字体 显示 的 
数字 是 进位 值 ， 底 部 一 行 中 以 两 个 数位 显示 的 数字 是 $ 的 值 。 在 本 例 
中 ， 进 位 输出 为 1， 因 为 4 个 数位 无 法 容纳 和 值 。XP_add 精 确 地 实现 了 
本 算法 ， 并 返回 最 终 的 进位 值 : 


(functions 


217) += 
int XP_add(int n, Tz, T x, T y, int carry) { 


int 1; 


for (i = 0; i < n; i++) { 
carry += x[i] + y[i]; 
Z[i] = carry%BASE; 
carry /= BASE; 

} 

return carry; 


i 


循环 的 每 一 次 迭代 中 ，carry 和 暂时 保存 了 对 应 于 当前 数位 的 和 值 S$， 而 
后 的 除法 ， 使 得 carry 只 包含 进位 值 。 各 个 数位 都 是 0 和 b-1 之 间 的 一 个 
数字 ， 进 位 值 可 以 为 0 或 1， 因 此 对 单个 数位 来 说 ， 和 值 S 的 最 大 值 为 
(b-1)+(b-1)+1=2b-1=511， 很 容易 放 入 一 个 int 值 中 。 


减法 z=x-y， 类 似 于 加 法 : 


减法 的 过 程 从 最 低 有 效 位 到 最 高 有 效 位 进行 ， 在 本 例 中 ， 借 位 值 的 初 
PENO ° 每 一 步 都 形成 差 值 D=x; +b-borrow-y; , z, 的 值 为 D modb, 
新 的 借 位 值 为 1-D/b。 顶 行 中 以 小 号 字体 显示 的 数字 是 借 位 值 ， 友 部 一 

行 中 以 两 个 数位 显示 的 数字 是 D 的 值 。 


(functions 


217) += 
int XP_sub(int n, Tz, T x, T y, int borrow) { 


int 1; 


for (i = 0; i < n; i++) { 
int d = (x[i] + BASE) - borrow - y[i]; 
z[i] = d%BASE; 
borrow = 1 - d/BASE; 

} 

return borrow; 


} 


D 至 多 为 (b-1)+b-0-0=2b-1=511， 很 容易 放 入 一 个 int 值 中 。 如 采 最 终 的 
彰 位 值 非 零 ， 那 么 x 小 于 y。 


单数 位 加 减法 出 比 通用 的 函数 简单 些 ， 它 们 使 用 第 二 个 操作 数 作 
为 进位 或 借 位 : 


(functions 


217) += 
int XP_sum(int n, T z, T x, int y) { 


int 1; 


for (i = 0; i < n; i++) 4 
y += x[i]; 
z[i] = y%BASE; 
y /= BASE; 

} 


return y; 


int XP_diff(int n, Tz, T x, int y) { 


int 1; 


for (i = 0; i < n; i++) { 
int d = (x[i] + BASE) - y; 
z[i] = d%BASE; 
y = 1 - d/BASE; 

} 


return y; 


XP_neg 类 似 单数 位 加 法 ， 但 x 的 各 个 数位 在 加 法 之 前 会 取 反 : 


(Functions 


217) += 
int XP_neg(int n, T z, T x, int carry) { 


int 1; 


for (i = 0; i < n; i++) { 
carry += (unsigned char)~x[i]; 
z[i] = carry%BASE; 
carry /= BASE; 

} 


return carry; 


} 


到 unsigned char 的 类 型 转换 确保 了 一 xD 的 值 小 于 b © 


17.2.2 ”乘法 


如 果 x 有 n 个 数位 而 y 有 mm 个 数位 ，z=x*y 会 形成 m 个 部 分 积 ， 每 个 
部 分 积 都 有 n 个 数位 ， 这 m 个 部 分 积 的 和 有 n+m 个 数位 。 以 下 例子 说 明 
了 当 z 的 初始 值 为 0、n 为 4、m 为 3 的 情形 下 ， 乘 法 执行 的 过 程 : 


2 2 2 
x 9 4 2 8 
5 8 5 6 
1 4 6 4 
2 9 2 8 
+ 6 5 8 8 
6 9 012 9 6 


部 分 积 不 必 明 确 地 计算 出 来 ， 在 计算 乘积 中 的 的 各 个 数位 时 ， 
个 部 分 积 都 会 加 到 z 上 “。 例 如 ， 第 一 个 部 分 积 8* 732 中 的 各 个 数位 ， 
从 最 低 有 效 位 到 最 高 有 效 位 进行 计算 。 该 部 分 积 的 第 i 个 数位 将 加 到 z 
的 第 i 个 数位 ， 同 时 还 会 应 用 加 法 中 的 进位 计算 。 第 二 个 部 分 积 2 * 732 
的 第 i 个 数位 ， 加 到 z 的 第 it1 个 数位 。 一 般 来 说 ， 当 计算 涉及 xi 的 部 分 
积 时 ， 该 部 分 积 的 各 个 数位 将 从 z 的 第 个 数位 开始 ， 加 a 到 z 上 。 


w> A 


(functions 


217) += 
int XP_mul(T z, int n, T x, intm, T y) { 


int i, j, carryout = 0; 


for (i = 0; i < n; i++) { 
unsigned carry = 0; 
for (j = 0; j < m; j++) { 
carry += x[i]*y[j] + z[i+j]; 
z[i+j] = carry%BASE; 


carry /= BASE; 


} 
for (; j <n+m- i; j+) { 
carry += z[i+j]; 
z[i+j] = carry%BASE; 
carry /= BASE; 
} 
carryout |= carry; 
} 


return carryout; 


} 


因为 在 第 一 个 嵌 套 循环 中 ， 来 自 部 分 积 的 各 个 数位 加 到 z 上 ， 进 位 值 最 
大 可 以 达到 b-1， 因 此 保存 在 carry 中 的 和 值 ， 最 大 可 以 达到 (b-1)(b-1)+ 
(b-1)=b? -b=65 280，unsigned 类 型 完全 可 以 容纳 该 值 。 在 将 一 个 部 分 积 
加 到 z 之 后 ， 第 二 个 藤 套 循环 将 进位 值 加 到 z 中 余下 的 数位 上 ， 并 记 
录 “ 这 次 ”加 法 中 z 的 最 高 位 的 进位 。 如 果 该 进位 值 为 1， 则 z+x*y 的 进位 
输出 为 1 。 


单数 位 乘法 相当 于 XP_mul 的 特例 ， 即 m 等 于 1、z 初 始 化 为 0 的 情 
Ie: 


(functions 


217 )+= 
int XP_product(int n, T z, T x, int y) { 
int 1; 


unsigned carry = 0; 


for (i = 0; i < n; i++) { 
carry += x[i]*y; 
z[i] = carry%BASE; 
carry /= BASE; 


l 


return carry; 


17.2.3 ”除法 和 比较 


除法 是 最 复杂 的 算术 函数 。 有 几 种 算法 可 以 使 用 ， 其 各 有 优 缺 
点 。 可 能 其 中 最 容易 理解 的 算法 ， 来 自 于 计算 q=x/y 和 r=x mod y 的 下 壕 
数学 规则 。 


if x 
< y 


then q 


/2y 


mod 2y 


当然 ， 涉 及 q' 和 r' 的 中 间 计 算 必 须 使 用 XP_T 完 成 。 


递归 算法 的 问题 在 于 对 d 和 zr 的 内 存 分 配 。 这 种 分 配 可 能 多 达 
co 1g 是 以 2 为 底 的 对 数 ) ， 因 为 lg x 和 是 递归 深度 的 最 大 值 。 
XP 接 口 苯 止 这 种 隐 售 的 内 存 分 配 。 


对 于 x>y 且 y 至 少 有 两 个 有 效 数 位 的 一 般 情 形 ，XP_div 使 用 了 一 种 
高 效 的 欠 代 算法 ， 对 x<y 的 情形 和 y 只 有 一 个 数位 的 情形 ， 将 使 用 更 为 
简单 的 算法 。 


(functions 


217) += 
int XP_div(int n, Tq, T x, int m, T y, Tr, T tmp) { 


int nx =n, my = m; 


n = XP_length(n, x); 
m = XP_length(m, y); 
if (m == 1) { 


(single-digit division 


222) 
} else if (m > n) { 
memset(q, '\@', nx); 
memcpy(r, x, n); 
memset(r + n, '\O', my - n); 
} else { 


(long division 


XP_div 首 先 检查 是 否 为 单数 位 除法 ， 该 情形 隐 合 了 对 除 以 零 的 处 理 。 


单数 位 除法 很 容易 ， 因 为 商 的 各 个 数位 可 以 使 用 C 语 言 中 普通 的 
无 符号 整数 除法 计算 。 除 法 从 最 高 位 到 最 低位 进行 ， 进 位 值 的 初始 值 
为 零 。 十 进 制 下 的 9428 除 以 7， 即 说 明了 除法 涉及 的 各 个 步 又 : 


在 每 一 步 ， 部 分 被 除数 R=carry*b+x; ， 商 的 数位 qi =R/yo ， 新 的 进位 值 
HR mod yo ° 进位 值 是 上 图 中 以 小 号 字体 显示 的 数位 。 进 位 值 的 最 终 
值 即 为 余数 。 这 正 是 XP_quotient 所 实现 的 操作 ， 该 函数 返回 余数 : 


(Functions 


217) += 
int XP_quotient(int n, T z, T x, int y) { 
int 1; 


unsigned carry = 0; 


for (i =n - 1; i >= 0; i--) { 
carry = carry*BASE + x[i]; 
z[i] = carry/y; 
carry %= y; 

} 


return carry; 


R 在 XP_guotient 中 赋值 给 carry， 其 最 大 值 为 (b-1)b+(b-1)=b? -1=65535 , 
unsigned 类 型 值 可 以 容纳 该 值 。 


在 XP_div 中 ， 调 用 XP_quotient 返 回 的 是 r 的 最 低 有 效 位 ， 因 此 其 余 
数位 必须 明确 设置 为 0: 


(single-digit division 


222) = 
if (y[0] == 0) 


return 0; 


r[0] = XP_quotient(nx, q, x, y[0]); 


memset(r + 1, '\O', my - 1); 


在 一 般 情 况 下 ，n 个 数位 的 被 除数 除 以 m 个 数位 的 除数 ， 其 中 n>m 
且 m>1。 在 基数 10 下 ， 将 615 367 除 以 296， 就 说 明了 除法 的 计算 过 
程 。 被 除数 最 高 位 之 前 会 补 一 个 0 数位 ， 使 得 n 大 于 mi: 


N NIO WIO WIN 


高 效 地 计算 商 的 每 个 数位 qk ， 是 比较 长 的 除法 问题 的 关键 ， 因 为 
其 中 的 计算 涉及 mm 个 数位 的 操作 数 。 


暂且 假定 我 们 知道 如 何 计算 商 的 各 个 数位 ， 那 么 以 下 伪 代 码 勾勒 
出 了 长 除法 的 一 个 实现 。 


rem ~ X 最 高 位 前 补 9 

for (k =n - m; k >= 0; k--) { 
compute qk 
dq ~ y*qk 
q->digits[k] = qk; 


rem ~ rem - dq*b 


Í 


r e rem 


rem 的 初始 值 等 于 x， 最 高 位 前 补 0。 循 环 中 计算 了 商 的 n-m+1 个 数位 ， 
首先 将 rem 的 前 m+1 个 数位 作为 被 除数 ， 除 以 m 个 数位 的 除数 ， 计 算得 
到 次 的 最 高 有 效 位 。 在 每 次 迷 代 结束 时 ， 从 rem 减 去 qk 和 y 的 乘积 ， 这 
会 将 rem 减 少 一 个 数位 。 对 上 例 来 说 ，n=6，m=3， 和 人 循环 体 执行 了 四 
次 ，k 值 分 别 为 6-3=3、2、1、0。 下 表 列 出 了 每 个 欠 代 中 k、rem、qk 和 
dq 的 值 。 第 二 列 中 的 下 划 线 标识 出 了 rem 中 除 以 y 的 前 缀 部 分 ， 即 
296 ° 


k rem qk dq 

3 0615367 2 0592 

2 023367 0 0000 

1 23367 7 2072 

0 2647 8 2368 
279 


XP_div 需 要 空间 来 容纳 两 个 临时 变量 rem 和 dg 的 各 个 数位 ， 它 需 
要 为 rem 分 配 n+1 个 字 广 、 需 要 为 dg 分配 m+1 个 字 市 ， 这 是 tmp 必 须 至 少 
为 ntm+2 个 字 贡 长 的 原因 。 在 上 述 的 伪 代 码 框 架 中 填 入 实际 内 容 ， 用 
于 长 除法 的 代码 块 即 演变 为 如 下 的 形式 : 


(long division 


223) = 
int k; 
unsigned char *rem = tmp, *dq = tmp + n + 1; 
assert(2 <= m && m <= n); 
memcpy(rem, x, n); 
rem[n] = 0; 
for (k=n - m; k >= 0; k--) { 
int qk; 


(compute 


qk, dq ~ y*qk 224) 
q[k] = qk; 


(rem ~ rem - dq*bk 


225) 
} 


memcpy(r, rem, m); 
(fill out 


q and 


r with Os 


224) 


tmp[0..n] 容 纳 了 rem 的 n+1 个 数位 ， 而 tmp[n+1..n+1+m] 容 纳 了 dq 的 m+1 
个 数位 。 在 tmp[0..k+m] 中 ， 总 是 包含 rem 的 k+tm+1 个 数位 。 下 列 代码 计 
算 了 一 个 an-m + 1 个 数位 的 商 ， 和 一 个 m 个 数位 的 余数 ，q 和 r 中 其 余 的 
数位 必须 都 设置 为 0: 


(fill out 
q and 


r with Os 


N 
N 
N 
kona 
ill 


int 1; 

for (i = n-m+1; i < nx; i++) 
q[i] = 0; 

for (i = m; i < my; i++) 


r[i] = 0; 
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的 方法 是 : 将 qk 的 初 值 设置 为 b-1， 然 后 在 一 个 循环 中 ， 只 要 y* qk 大 
于 rem 的 前 m+1 个 数位 ， 就 将 qk 减 1: 


qk = BASE-1; 

dq ~ y*qk; 

while (rem[k..k+m] < dq) { 
qk--; 
dq ~ y*qk; 

} 


这 种 方法 太 慢 :该 循环 可 能 需要 b-1 次 迭代 ， 每 个 从 代 需要 m 个 数位 的 
乘法 和 m+1 个 数位 的 比较 。 更 好 的 方法 是 使 用 通 肖 的 整数 运算 更 精确 
地 估计 qk 的 值 ， 并 在 估计 错误 时 进行 校正 。 实 际 上 ， 用 rem 的 前 三 个 
数位 除 以 y 的 前 两 个 数位 ， 即 可 得 到 对 qk 的 估计 值 ， 该 值 可 能 古 正 确 
的 ， 或 者 比 正 确 值 大 1。 因 而 ， 上 述 的 循环 可 以 蔡 换 为 一 个 简单 的 测 
ist: 


(compute 


qk, dq ~ y*qk 224) = 
{ 
int 1; 
assert(2 <= m && m <= k+m && k+m <= n); 
(qk ~ y[m-2..m-1]/rem[k+m-2..k+m] 225) 
dq[m] = XP_product(m, dq, y, gk); 
for (i =m; i > 0; i--) 
if (rem[itk] != dg[i]) 
break; 


if (rem[i+k] < dq[i]) 


dq[m] = XP_product(m, dq, y, --qk); 
} 


上 述 代 码 块 使 用 XP_product 计 算 y[0..m - 1] * qk， 将 结果 赋值 给 dq， 返 
回 最 终 的 进位 值 ， 即 dq 的 最 高 一 个 数位 。for 循 环 逐 数位 比较 
rem[k..k+tm] 和 dq。 如 果 dq 大 于 rem 的 前 m+1 个 数位 ， 则 qk 比 实际 的 正确 
值 大 1， 所 以 将 qk 减 1 并 重新 计算 dq。 


可 以 利用 普通 的 整数 除法 来 估算 qk: 


(qk - y[m-2..m-1]/rem[k+m-2..k+m] 225) = 
{ 

int km = k + m; 

unsigned long y2 = y[m-1]*BASE + y[m-2]; 

unsigned long r3 = rem[km]*(BASE*BASE) + 
rem[ km-1]*BASE + rem[km-2]; 

qk = r3/y2; 

if (qk >= BASE) 
qk = BASE - 1; 


r3 最 大 为 (b-1)b? +(b-1)b+(b-1)=b° -1=16777215, unsigned long 类 型 可 以 
容纳 r3。 这 个 计算 ， 实 际 上 限制 了 对 BASE 值 的 选择 。unsigned long 可 
以 容纳 小 于 232 的 值 ， 这 要 求 B3 -1<23 ， 因 此 BASE 必 须 小 于 210.6666 ， 
即 BASE 不 能 大 于 1625。 在 2 的 各 个 需 中 ，256 是 不 大 于 1625 的 最 高 次 
需 ， 而 且 刚 好 是 另 一 个 内 建 类 型 (unsigned char) 所 能 容纳 的 最 大 
值 。 


解决 长 除法 问题 ， 最 后 一 步 是 从 rem 的 前 m+1 个 数位 中 减 去 dq， 这 
减 小 了 rem， 并 使 其 减少 一 个 数位 。 在 概念 上 ， 可 以 先 算出 dq 左 移 k 个 
数位 后 的 值 ， 并 从 rem 减 去 该 值 ， 即 可 完成 该 减法 。 上 文 给 出 的 
XP_sub， 可 用 于 完成 这 个 减法 运算 ， 只 需要 将 指 问 适当 数位 的 指针 传 
递 给 XP_Sub 即 可 : 


(rem ~ rem - dq*b* 


225) = 
{ 
int borrow; 
assert(0 <= k && k <= k+m); 
borrow = XP_sub(m + 1, &rem[k], &rem[k], dg, 0); 
assert(borrow == 0); 
} 


<compute qk, dq y*qk 224> 中 的 代码 说 明 ， 可 以 通过 从 最 高 有 效 位 开 
始 逐 一 比较 各 个 数位 ， 来 比较 两 个 多 数位 的 数字 。XP_cmp 刚 好 是 用 这 
个 方法 来 比较 两 个 XP_T 参 数 的 : 


(functions 


217) += 
int XP_cmp(int n, T x, T y) { 


int i =n - 1; 


while (i > 0 && x[i] == y[i]) 
1--; 


return x[i] - y[i]; 


17.2.4 Bi 


XP 的 实现 中 ， 有 两 个 函数 可 以 将 XP_T 左 移 / 右 移 指 定数 目的 比特 
位 。 移 位 s 个 比特 位 ， 通 过 两 步 完 成 : 第 一 步 移 位 8 * (%8) 个 比特 位 ， 
每 次 移动 一 个 字 节 ， 第 二 步 移 位 剩余 的 s mod 8 个 比特 位 ， 一 次 完成 。 
fi 设置 为 全 1 或 全 0 的 字 节 值 〈 即 0xff 或 0) ， 以 便 使 用 该 值 一 次 填充 一 
个 字 节 ， 如 下 所 示 。 


(functions 


217) += 

void XP_lshift(int n, T z, int m, T x, int s, int fill) { 
fill = fill ? OxFF : 0; 
(shift left by 


s/8 bytes 


226) 


s % 8; 
if (s > 0) 


(shift 
z left by 


s bits 


图 17-1 说 明了 这 些 步骤 ， 图 中 原本 是 一 个 六 个 数位 的 XP_ 工 ， 包 含 44 个 
值 为 1 的 比特 位 ， 在 左 移 13 个 比特 位 后 ， 形 成 了 一 个 八 个 数位 的 


XP T， 在 右 侧 的 浅 色 阴 影 标识 了 移 位 后 空 出 的 比特 位 ， 这 些 将 设置 为 
fill ° 


13%8 比特 位 


图 17-1 左 移 13 个 比特 位 
左 移 s/8 个 字 节 ， 可 以 通过 下 列 赋值 操作 概述 。 


z[m+(s/8)..n-1] ~ 0 
Z[s/8..m+(Ss/8)-1] ~ x[O..m-1] 
z[O..(S/8)-1] = fill. 


第 一 个 赋值 操作 ， 将 z 中 不 出 现 Exess a) 的 数位 清 零 。 在 
第 二 个 赋值 操作 中 ，x; 复制 到 zi,ye ， 首 先 复 制 最 高 有 效 子 方 ; 第 二 个 
赋值 操作 ， 将 z 的 s/8 个 最 低 有 效 字 万 设置 为 们 。 这 些 赋值 操作 都 涉足 
到 循环 ， 初 始 化 代码 会 处 理 n 小 于 m 的 情形 : 


(shift left by 
s/8 bytes 


226) = 
{ 


i =n - s/8 - 1; 

for ( ; j >= m + S/8; j--) 
z[j] = 0; 

for ( ; i >= 0; i--, j--) 
z[j] = x[i]; 

for ( ; j >= 0; j--) 
z[j] = fill; 


在 第 二 步 中 ，s 已 经 简化 为 需要 移 位 的 比特 位 数目 。 


这 种 移 位 等 效 于 将 z 滋 以 2 ， 然 后 将 z 的 s 个 最 低 有 效 比特 位 设置 为 
fill ° 


(shift 


z left by 


s bits 


N 
N 
N 
~ 一 
lll 


XP_product(n, z, z, 1<<s); 


z[0] |= fill>>(8-s); 


fi 是 0 或 0xFF， 因 此 和 名] >> (8-s)\ Ba Ss Mastic, ALA 
最 低 s 个 比特 位 。 


右 移 也 使 用 了 一 个 类 似 的 两 步 过 程 ， 第 一 步 右 移 s/8 个 字 广 ， 第 二 
步 右 移 余下 的 s mod 8 个 比特 位 。 


(functions 


217) += 

void XP_rshift(int n, T z, int m, T x, int s, int fill) { 
fill = fill ? OxFF : 0; 
(shift right by 


s/8 bytes 


228) 
s %= 8; 
if (s > 0) 
(shift 


z right by 


s bits 


将 一 个 六 个 数位 的 XP_T (包含 44 个 值 为 1 的 比特 位 ) 右 移 13 个 比特 
位 ， 到 一 个 八 数位 的 XP_T 中 ， 这 一 过 程 说 明了 右 移 的 步骤 ， 如 图 17-2 
所 示 ， 左 侧 的 浅 色 阴影 同样 标识 了 空 出 和 过 多 的 比特 位 ， 这 些 比特 位 
将 设置 为 fil。 


13%8 比特 位 


图 17-2 “” 右 移 13 个 比特 位 


概述 右 移 过 程 的 三 个 赋值 操作 如 下 


z[O..m-(S/8)-1] ~ x[s/8..m-1] 
z[m-(s/8)..m-1] ~ fill 
z[m..n-1] ~ fill. 


第 一 个 赋值 操作 将 xi 2 Bz, og. ACR BIKA RST, MFT S8 
FARE ° 58 — “NIEVES AS CB fill, BANERNE 
将 z 中 未 出 现在 x 中 的 数位 设置 为 们 ]。 当 然 ， 第 二 个 和 第 三 个 赋值 操作 
可 以 通过 同一 个 循环 完成 : 


(shift right by 
s/8 bytes 


228) = 
{ 
int i, j = 0; 
for (i = s/8; i <m && j < n; i++, j++) 
z[j] = x[i]; 
for (; j< n; j++) 


z[j] = fill; 


第 二 步 将 z 右 移 s 个 比特 位 ， 等 效 于 将 z 除 以 2s : 


(shift 


z right by 


s bits 


N 
N 
Oo 
wr 
Il 


XP_quotient(n, z, z, 1<<s); 
z[n-1] |= fill<<(8-s); 
} 


表达 式 fil << (8-s) 形 成 了 s 个 填充 比特 位 ， 可 用 于 字 市 的 最 高 s 个 比特 
位 ， 可 以 按 位 或 到 z 的 最 高 有 效 字 节 中 。 


17.2.5 “字符 串 转换 


XP 的 最 后 二 个 函数 用 于 XP_T 与 字符 串 的 双 回 转换 。XP_fromstr 将 
字符 串 转 换 为 XP_T， 该 琅 数 可 处 理 的 字符 串 ， 首 先是 可 选 的 空格 ， 后 
接 一 个 或 多 个 数位 《数位 值 受 指定 基数 的 限制 ， 基 数 的 范围 在 2 一 
36) 。 对 于 大 于 10 的 基数 ， 用 字母 来 表示 大 于 9 的 数位 。 在 遇 到 非法 字 
符 或 0 字符 时 ， 或 乘法 的 进位 输出 非 零 时 ，XP_fromstr 停 止 扫 摘 字符 串 
参数 。 


(Functions 


217) += 
int XP_fromstr(int n, T z, const char *str, 
int base, char **end) { 


const char *p = str; 


assert(p); 
assert(base >= 2 && base <= 36); 


(skip white space 


229) 


if ( (*p is a digit in base 


229) ) { 
int carry; 


for ( ; (*p is a digit in base 


2295. Pee) T 
carry = XP_product(n, z, z, base); 
if (carry) 
break; 
XP_sum(n, z, z, map[*p-'0']); 
} 
if (end) 
*end = (char *)p; 


return carry; 


} else { 
if (end) 
*end = (char *)str; 
return 0; 
} 


(skip white space 


229) = 
while (*p && isspace(*p)) 


ptt; 


如 果 end 不 是 NULL，XP_fromstr 将 *end 设 置 为 指向 停止 扫 摘 时 的 字 
符 。 


如 果 c 为 数位 字符 ，map[c-'0] 是 对 应 的 数位 值 ， 例 如 ，map[F' - '0'] 
为 15。 


(data 


229) = 
static char map[] = { 

0, 1, 2, 3,4, 5 6, 7, 8, 9, 
36, 36, 36, 36, 36, 36, 36, 
10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 
23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 
36, 36, 36, 36, 36, 36, 
10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 
23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35 

ti 


在 ASCII 字 符 '0' 和 ' 双 之 间 ， 对 于 少量 无 效 的 数位 字符 c 来 说 ，map[c - '0'] 
为 36。 这 样 ， 在 以 base 为 基数 时 ， 只 要 map[c - '0] 小 于 base， 那 么 c 束 是 


一 个 合法 的 数位 字符 。 因 而 ，XP_fromstr 可 以 用 下 述 方式 来 测试 *p 是 
否 为 数位 字符 : 


(*p is a digit in base 


229) = 


(*p && isalnum(*p) && map[*p-'O'] < base) 


XP_tostr 使 用 通常 的 算法 来 计算 x 的 字符 串 表 示 ， 首 先 剥 离 最 后 一 
个 数位 ， 当 然 ，XP_tostr 使 用 了 XP 接口 中 现 有 的 函数 来 执行 计算 。 


(functions 


217) += 
char *XP_tostr(char *str, int size, int base, 
int n, T x) { 


int i = 0; 


assert(str); 
assert(base >= 2 && base <= 36); 
do { 
int r = XP_quotient(n, x, x, base); 
assert(i < size); 
str[itt+] = 
"0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ" [rr]; 
while (n > 1 && x[n-1] == 0) 
n--; 


} while (n > 1 || x[0] != 0); 


assert(i < size); 
str[i] = '\0'; 


(reverse 


str 230) 
return str; 


} 


str 中 的 各 个 字符 是 前 后 反问 的 ， 因 此 XP_tostr 在 结束 前 需要 将 这 些 字 
从 逆转 过 来 。 


(reverse 


str 230) = 
{ 


int j; 

for (j = 0; j < --i; j++) { 
char c = str[j]; 
str[j] = str[i]; 


str[i] = c; 


17.3 ”扩展 阅读 


XP 中 大 部 分 算术 函数 都 直接 了 当地 实现 了 小 学 生 水 平 的 四 则 运算 
算法 。[Hennessy and Patterson，1994] 中 的 第 4 章 和 [Knuth，1981] 中 的 


4.3 玫 都 措 述 了 实现 算术 操作 的 经 典 算法 。[Knuth，1981] 很 好 地 综述 了 
这 些 算法 的 悠 人 历史 。 


除法 的 实现 比较 困难 ， 因 为 在 计算 商 的 各 个 数位 时 ， 有 一 些 强加 
的 约束 。XP_div 中 使 用 的 算法 取 自 [Brinch-Hansen，1994]， 该 论文 包 
舍 了 对 “ 商 数位 估计 值 最 多 只 大 1 结论 的 证 明 。Brinch-Hansen 还 说 明 
了 ， 可 以 通过 按 比例 放大 操作 数 ， 在 大 多 数 情况 下 都 可 以 避免 校正 
qk。 按 比 例 放 大 ， 只 需要 一 次 额外 的 单数 位 乘法 和 除法 ， 但 在 大 多 数 
情况 下 可 以 避免 〈 因 dk 必须 减 1 而 导致 的 ) 第 二 次 乘法 运算 。 


17.4 “习题 


17.1 实现 递归 式 除 法 算法 ， 并 对 照 XP_div 中 使 用 的 Brinch- 
Hansen 算 法 ， 比 较 算 法 执行 的 时 间 和 空间 性 能 。 是 否 在 某 些 情况 下 ， 
递归 算法 更 可 取 ? 


17.2 ”实现 [Hennessy and Patterson，1994] 的 第 4 章 中 描述 的 “ 移 位 
相 减 ” 式 除法 算法 ， 并 对 照 XP_div 中 使 用 的 Brinch-Hansen 算 法 ， 比 较 
其 性 能 。 


17.3 XP 接口 中 的 大 部 分 范 数 ， 执 行 时 间 都 与 操作 数 中 数位 的 数 


目 成 正比 。 因 而 ， 以 2* 为 基数 来 表示 XP_T， 将 使 这 些 函 数 运行 速度 
提高 到 原来 的 两 倍 。 但 除法 有 个 问题 ， 因 为 


(218 )3 -1=28 147 497 610 655. 


在 大 多 数 32 位 计算 机 上 该 值 都 大 于 ULONG_MAX， 无 法 使 用 普通 的 C 
语言 整数 运算 (以 一 种 可 移植 的 方式 ) 来 估算 商 的 数位 。 设 计 一 种 方 
法 绕 过 这 个 问题 ， 使 用 216 为 基数 实现 XP 接口 ， 并 测量 这 种 做 法 带 来 
的 好 处 。 这 种 做 法 带 来 了 好 处 ,但 是 否 值得 为 此 而 增加 除法 实现 的 复 


ARVE? 


17.4 针对 基数 23 ， 重 新 完成 习题 17.3。 


17.5 “使 用 更 大 基数 如 22 的 扩展 精度 算术 ， 通 单 更 容易 用 汇编 语 
言 实 现 ， 因 为 许多 机 天 提供 了 双 精 度 指令 ， 通 向 也 很 容易 获得 进位 和 
音 位 值 。 而 且 ， 汇 编 语言 实现 也 总 是 更 快 。 请 读者 在 喜爱 的 计算 机 上 
用 汇编 语言 重新 实现 XP 接口 ， 并 测定 其 在 速度 方面 的 改进 。 


17.6 ”实现 一 个 XP 函数 ， 可 以 在 指定 范围 内 生成 均匀 分 布 的 随机 


[1] 有 一 个 操作 数 只 有 单个 数位 。 一 一 译 者 注 


第 18 章 ”任意 精度 算术 


本 章 描述 了 了 AP 接口， 该 接口 提供 了 任意 精度 的 有 符号 整数 ， 以 及 
相关 的 算术 操作 。 不 同 于 XP_T，AP 提 供 的 整数 可 以 是 负数 或 正 数 ， 它 
们 可 以 包含 任意 数目 的 数位 。 可 以 表示 的 值 只 受 限 于 可 用 的 内 存 。 这 
种 整数 可 以 用 于 需要 在 极 大 的 范围 内 使 用 整数 值 的 应 用 程序 。 例 如 ， 
一 些 共同 基金 公司 以 百 分 之 一 美 分 (一 美元 的 10 000) 为 单位 来 跟踪 
股票 价格 ， 因 而 可 能 需要 以 百 分 之 一 美 分 为 单位 来 完成 所 有 的 计算 。 
这 样 ，32 位 无 符号 整数 最 大 只 能 表示 $429 496.729 5， 对 于 一 些 资金 量 
以 十 亿 计 的 基金 来 说 ， 这 仅仅 是 九 牛 一 毛 。 


当然 ，AP 的 实现 使 用 了 XP 接 口 ， 但 AP 是 一 个 高 级 接口 : 它 只 暴露 
了 一 个 不 透明 类 型 ， 用 以 表示 任意 精度 的 有 符号 整数 。AP 导 出 了 相应 
的 函数 ， 来 分 配 并 释放 这 种 整数 ， 以 及 对 这 种 整数 执行 通常 的 算术 操 
作 。 它 还 实现 了 XP 忽略 的 那些 已 检查 的 运行 时 错误 。 大 多 数 应 用 程序 
都 应 该 使 用 AP 接口 或 下 一 章 描述 的 MP 接口 。 


18.1 接口 


AP 接口 通过 不 透明 指针 类 型 ， 隐 藏 了 任意 精度 有 符号 整数 的 表示 
细节 : 


(ap.h 


#ifndef AP_INCLUDED 
#define AP_INCLUDED 


#include <stdarg.h> 


#define T AP_T 


typedef struct T *T; 


(exported functions 


233) 


#undef T 


#endif 


Be AR RYE RR AT OL ZO, KR AE — ey EB EB (BA NULL 的 
AP T， 都 造成 已 检查 的 运行 时 错误 。 


AP_T 实 例 由 以 下 函数 创建 


(exported functions 


233) = 
extern T AP_new(long int n); 
extern T AP_fromstr(const char *str, int base, 


char **end); 


AP_new 创 建 一 个 新 的 AP T， 将 其 值 初 始 化 为 n， 并 返回 该 实例 。 
AP_fromstr 也 创建 一 个 新 的 AP_T 实 例 ， 将 其 初始 化 为 通过 str 和 base 指 


定 的 值 ， 并 返回 该 实例 。AP_new 和 AP fromstr 都 可 能 引发 Mem_Failed 


cy As 
JE ° 


AP_fromstr 类 似 C 库 中 的 strtol， 它 将 str 中 的 字符 串 解释 为 以 base 为 
基数 的 整数 。 它 在 处 理 过 程 中 ， 会 忽略 str 前 部 的 空格 ， 可 以 接受 一 个 
可 选 的 符号 ， 后 接 一 个 或 多 个 以 base 为 基数 的 数位 。 对 于 11 和 36 之 间 的 
基数 来 说 ，AP_fromstr 将 小 写 或 大 写字 母 解释 为 大 于 九 的 数位 。base 小 
于 2 或 大 于 36， 则 为 已 检查 的 运行 时 错误 。 


如 果 end 不 是 NULL，*end 人 被 设置 为 指向 AP_fromstr 结 束 解 释 过 程 的 
字符 处 。 如 果 str 中 的 各 个 字符 不 是 基数 base 下 的 整数 ， 那 么 AP_fromstr 
将 返回 NULL ， 并 将 *end 设 置 为 sr (如 果 end 不 是 NULL) 。str 是 
NULL， 则 造成 已 检查 的 运行 时 错误 。 


以 下 函数 


(exported functions 


233) += 

extern long int AP_toint(T x); 

extern char * AP_tostr(char *str, int size, 
int base, T x); 

extern void AP_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision); 


提取 并 输出 AP_T 实 例 表 示 的 整数 。AP_toint 返 回 一 个 long int, RAS 
与 x 相 同 ， 绝 对 值 等 于 |xmod (LONG_MAX+1TD ， 其 中 LONG_MAX 是 
long int 可 以 表示 的 最 大 值 。 如 果 x 是 LONG_MIN (在 使 用 二 进 制 补 码 的 


机 器 上 ， 等 于 -LONG_MAX-1) , AP_tointi[5]-((LONG_MAX+1) mod 
(LONG_MAX+1))， 即 为 0。 


AP_tostr 将 x 在 基数 base 下 的 字符 表示 填充 到 str 中 (以 0 结尾 ) ， 并 
返回 str。 在 base 大 于 10 时 ， 大 写字 母 用 于 表示 大 于 9 的 数位 。base 小 于 2 
或 大 于 36， 则 为 已 检查 的 运行 时 错误 。 


如 果 str 不 是 NULL，AP_tostr 将 问 str 中 填充 最 多 size 个 字符 。 如 果 
size 太 小 ， 则 造成 已 检查 的 运行 时 错误 : 即 x 的 字符 表示 加 上 一 个 0 字 
符 ， 需 要 的 空间 多 于 size 个 字符 。 如 果 str 是 NULL NA size, 
AP tostr 会 分 配 一 个 足够 大 的 字符 串 来 保存 x 的 表示 ， 并 返回 该 字符 
串 。 客 户 程序 负责 释放 该 字符 串 。 在 str 是 NULL 时 ，AP_tostr 可 能 引发 


Mem. Failed: ° 


AP_fmth] JAED RHK, SFmi PAK aE, ORR Sh 
化 AP_T。 它 消耗 一 个 AP_T 实 例 ， 并 根据 可 选 的 flags、width 和 和 precision 
来 格式 化 该 实例 ， 其 工作 方式 与 printf 限 定 符 %d 格 式 化 整数 参数 的 方式 
相同 。AP_fmt 可 能 引发 Mem_Failed 异 常 。app 或 flags 是 NULL， 则 为 已 
全 得 的 运行 时 销 误 ° 


AP_T 实 例 通 过 下 列 函 数 释放 : 


(exported functions 


233) += 


extern void AP_free(T *z); 


AP _ free 释放 *z 并 将 *z 设 置 为 NULL。 如 果 z 或 *z 为 NULL ， 将 造成 已 检 
查 的 运行 时 错误 。 


下 列 画 数 对 AP_T 实 例 执行 算术 操作 。 每 个 函数 都 返回 一 个 AP_T 实 
例 作 为 结果 ， 这 些 函 数 都 可 能 引发 Mem_Failed 寞 各 。 


(exported 


233) += 
extern 
extern 
extern 
extern 
extern 
extern 


extern 


TEREE 


functions 


AP_neg(T 
AP_add(T 
AP_sub(T 
AP_mul(T 
AP_div(T 
AP_mod(T 


AP_pow(T 


y); 
y); 
y); 
y); 
y); 
y, T p); 


4H AAAaA A 


AP_negi[5]-x, AP_addillx+y, AP subi {Alx-y, AP _muli[H]x*y ° 
在 这 里 和 下 文中 ，x 和 y 代 表 变 量 x 和 y 表 示 的 整数 值 。AP_div 返 回 x/y， 
而 AP_mod 返 回 x mod y ° PREM AGA: 当 x 或 y 之 一 为 负数 时 ， 向 负 无 
穷 大 舍 入 ， 否 则 向 0 舍 入 ， 因 此 余数 总 是 正 数 。 更 确切 地 说 ， 对 使 得 
w*y=Xx 的 实数 w 来 说 ，x/y 的 商 q 是 不 大 于 w 的 最 大 整数 ， 而 余数 则 定义 
为 x-yxqd。 该 定义 与 第 2 章 中 所 述 Arith 接 口 的 实现 是 相同 的 。 对 于 
AP_div 和 AP_mod， 如 果 y 为 0， 则 造成 已 检查 的 运行 时 错误 。 


当 p 为 NULL 时 ，AP_pow 返 回 xy 。 当 p 不 是 NULL 时 ，AP_pow 返 回 
(xy ) mod p。y 为 负数 ， 或 p 不 是 NULL 且 小 于 2， 则 造成 已 检查 的 运行 时 


wi 


下 述 便捷 函数 


(exported functions 


233) += 
extern AP_addi(T x, long int y); 


extern 


T 

extern T AP_subi(T x, long int y); 
T AP_muli(T x, long int y); 
T 


extern AP_divi(T x, long int y); 


extern long AP_modi(T x, long int y); 


类 似 于 上 面 描述 的 函数 ， 但 使 用 long int 类 型 来 表示 y。 例 如 ， 
AP_addi(x, y) 等 效 于 AP_add (x, AP_new(y))。 除法 和 取 模 运算 的 规则 ， 
与 AP_div 和 AP_mod 相 同 。 这 些 函 数 都 可 能 引发 Mem_Failed 寞 常 。 


AP_T 可 以 用 下 述 芳 数 进 行 移 位 操作 : 


(exported functions 


233) += 
extern T AP_lshift(T x, int s); 


extern T AP_rshift(T x, int s); 


AP_lshift 返 回 x 左 移 s 个 比特 位 后 得 到 的 AP_T 实 例 ， 该 值 等 于 x 乘 以 25 。 

AP_rshift 返 回 x 右 移 s 个 比特 位 后 得 到 的 AP_T 实 例 ， 该 值 等 于 x 除 以 25 © 

这 两 个 函数 的 返回 值 与 x 符 号 相同 。s 为 负数 ， 则 造成 已 检查 的 运行 时 
音 误 ， 移 位 操作 可 能 引发 Mem_Failed 寞 名 。 


AP_T 通 过 下 列 函 数 比 较 


(exported functions 


233) += 
extern int AP_cmp (T x, T y); 


extern int AP_cmpi(T x, long int y); 


对 于 x<y、x=y、x>y 的 情形 ， 这 两 个 函数 都 会 分 别 返 回 一 个 小 于 0、 等 
于 0、 大 于 0 的 整数 。 


18.2 例子: 计算 器 


一 个 可 完成 任意 精度 计算 的 计算 器 ， 说 明了 AP 接 口 的 用 法 。 下 一 
节 描述 了 AP 接 口 的 实现 ， 其 中 说 明了 XP 接口 的 使 用 。 


计算 器 calc， 使 用 了 波兰 后 级 表示 法 (Polish suffix notation) : (Ë 
被 推 入 栈 上 ， 运 算 符 将 其 操作 数 从 栈 中 弹出 ， 并 将 运算 结果 再 次 推 入 
栈 上 。 一 个 值 由 一 个 或 多 个 连续 的 十 进 制 数位 组 成 ， 文 持 的 运算 符 如 
Fe 


~ AR 
+ WME 
- 减法 
* 乘法 
/ 除法 
% 取 模 
A Wye 
d 复制 栈 顶 部 的 值 


p 输出 栈 顶 部 的 值 
f AUR, ee EAP AA 
q 退出 


She FT AS oi tel, STL TARE, EE TE TCI A 
Bl) AGB FF Sh o PRAIA ZAAFA, 1 Ac EGP da a 
输出 诊断 消 轧 。 


calc 足 一 个 简单 程序 ， 有 三 个 主要 任务 ， 解释 输入 、 计 算 值 、 管 理 
栈 。 


(calc.c 


Y= 
#include <ctype.h> 
#include <stdio.h> 
#include <string.h> 
#include <stdlib.h> 
#include "stack.h" 
#include "ap.h" 


#include "fmt.h" 


(calc data 


236) 


(calc functions 


236) 


包含 stack.h 头 文件 表明 ，calc 使 用 第 2 章 描 述 的 Stack 接 口 来 实现 
栈 。 


(calc data 


236) = 


Stack_T sp; 
(initialization 


236) = 


sp = Stack_new(); 


Esp 28 Ay calc fe Val Stack_pop, HEEK A ARIE PRY EBT RE] 
SERCH, EPR BG Ti: 


(calc functions 


236) = 
AP_T pop(void) { 
if (!Stack_empty(sp) ) 
return Stack_pop(sp); 
else { 
Fmt_fprint(stderr, "?stack underflow\n") ; 


return AP_new(0); 


函数 总 是 返回 一 个 AP_T 实 例 (即使 栈 为 空 ) 
Hee 则 。 


这 简化 了 calc 中 其 他 


calc 中 的 主 循 环 读 取 下 一 个 “标记 ”一 一 值 或 运算 符 ， 并 据 此 执行 对 


应 的 操作 : 


(calc functions 


236) += 


int main(int argc, char 


*argv[]) { 


int C; 
(initialization 


236) 


while ((c = getchar()) != EOF) 
switch (c) { 


(cases 


237) 
default: 
if (isprint(c)) 


Fmt_fprint(stderr, "?'%c'", 
else 


Fmt_fprint(stderr, "?'\\%030'", 


Fmt_fprint(stderr 


break; 


c); 


, " is unimplemented\n"); 


(clean up and exit 


236) 


(clean up and exit 


236) = 


(clear the stack 


239) 
Stack_free(&sp); 


return EXIT_SUCCESS; 


输入 字符 或 者 是 空格 、 或 者 是 值 的 第 一 个 数字 、 或 者 是 运算 符 ， 其 他 
的 输入 字符 视 为 错误 ， 由 switch 语 句 中 的 default 子 句 处 理 。 空 格 忽 上 略 即 
可 : 


(cases 


237) = 
case ' ': case '\t': case '\n': case '\f': case '\r': 
break; 
数字 字符 是 值 的 开始 ， 从 第 一 个 数字 字符 开始 ，calc 将 其 后 的 各 个 
数 子 字符 都 收集 到 一 个 缓冲 区 中 ， 使 用 AP_fromstr 将 这 一 连 串 数字 字符 
转换 为 AP_T 实 例 : 


(cases 


237) += 

case '0': case '1': case '2': case '3': case '4': 

case '5': case '6': case '7': case '8': case '9': { 
char buf[512]; 


(gather up digits into 


buf 239) 
Stack_push(sp, AP_fromstr(buf, 10, NULL)); 


break; 


每 个 运算 符 都 从 栈 上 弹出 零 或 多 个 操作 数 ， 压 入 零 或 多 个 结果 。 
其 中 ， 加 法 颇具 代表 性 : 


(cases 
237) += 
case '+': { 
(pop 
x and 


y off the stack 


237) 


Stack_push(sp, AP_add(x, y)); 


(free 


x and 


x and 


y off the stack 


237) = 


AP_T y = pop(), x = pop(); 


(free 


x and 


y 237) = 


AP_free(&x); 


AP_free(&y); 


很 容易 犯 下 将 同一 AP_T 实 例 多 次 压 栈 的 错误 ， 这 种 情况 下 ， 基 本 上 不 
可 能 知道 该 释放 哪个 AP_T。 上 述 代 码 给 出 了 一 个 位 单 的 协议 ， 以 避免 


该 问题 ， 只 有 入 栈 的 AP_T 实 例 才 是 “持久 ”的 ， 其 他 的 都 会 通过 调用 


AP free 释 放 。 
减法 和 乘法 在 形式 上 类 似 于 加 法 : 
(cases 
237) += 
case '-': { 
(pop 
x and 
y off the stack 
237) 
Stack_push(sp, AP_sub(x, y)); 


(free 


X and 


case '*': { 


(pop 


X and 


y off the stack 

237) 
Stack_push(sp, AP_mul(x, y)); 
(free 


X and 


y 237) 


break; 


除法 和 取 模 也 比较 简单 ， 但 必须 防止 除数 为 0 的 情形 。 
(cases 

237) += 

case '/': { 

(pop 

X and 
y off the stack 
237) 


if (AP_cmpi(y, 0) == 0) { 
Fmt_fprint(stderr, "?/ by O\n"); 


Stack_push(sp, AP_new(0)); 
} else 
Stack_push(sp, AP_div(x, y)); 


(free 


x and 


case '%': { 


(pop 


X and 


y off the stack 


237) 
if (AP_cmpi(y, 0) == 0) { 
Fmt_fprint(stderr, "?%% by O\n"); 
Stack_push(sp, AP_new(0)); 
} else 
Stack_push(sp, AP_mod(x, y)); 


(free 


x and 


y 237) 


break; 


ae Be ED 1B LEAF IE aa ae TEAN: 


(cases 


237) += 
case 'A': { 


(pop 


X and 


y off the stack 


237) 
if (AP_cmpi(y, 0) <= 0) { 
Fmt_fprint(stderr, "?nonpositive power\n"); 
Stack_push(sp, AP_new(0)); 
} else 
Stack_push(sp, AP_pow(x, y, NULL)); 


(free 


X and 


y 237) 


break; 


复制 栈 顶 部 的 值 ， 需 要 首先 将 其 从 栈 中 弹出 COM Rem TA), 
然后 将 该 值 及 其 副本 压 栈 。 复 制 AP_T 实 例 的 唯一 途径 是 将 其 与 0 做 加 


法 。 


(cases 


237) += 

case 'd': { 
AP_T x = pop(); 
Stack_push(sp, x); 
Stack_push(sp, AP_addi(x, 0)); 


break; 


输出 一 个 AP_T 实 例 ， 需 要 将 AP_cvt 关 联 到 一 个 格式 码 ， 并 在 传递 
给 Fmt_fmt 的 格式 串 中 使 用 该 格式 码 ，calc 使 用 D 作 为 格式 码 。 


(initialization 


236) += 


Fmt_register('D', AP_fmt); 
(cases 


237) += 


case 'p': { 
AP_T x = pop(); 
Fmt_print("%D\n", x); 
Stack_push(sp, x); 


break; 


输出 栈 上 所 有 值 的 过 程 ， 揭 示 了 Stack 接 口 的 一 个 弱点 : 无 法 访问 
栈 顶 以 下 的 值 ， 或 获取 栈 上 值 的 总 数 。 一 个 更 好 的 栈 接口 ， 可 能 还 需 
ee 数 ， 没 有 这 些 函 数 ，calc 

必须 创建 一 个 临时 栈 ， 将 主 栈 的 内 容 换 入 临时 栈 中 ， 在 此 过 程 中 分 别 
输出 各 个 什 ， 而 后 再 将 临时 栈 的 内 容 换 入 主 栈 。 


(cases 


237) += 
case 'f': 
if (!Stack_empty(sp)) { 
Stack_T tmp = Stack_new(); 
while (!Stack_empty(sp)) { 
AP_T x = pop(); 
Fmt_print("%D\n", x); 
Stack_push(tmp, x); 
} 
while (!Stack_empty(tmp)) 
Stack_push(sp, Stack_pop(tmp)); 
Stack_free(&tmp); 


} 


break; 


switch 语 句 中 余下 的 case 子 句 ， 分 别处 理 取 反 、 清 至 栈 、 退 出 等 操作 : 


《cases 


237) += 

case '~': { 
AP_T x = pop(); 
Stack_push(sp, AP_neg(x)); 
AP_free(&x); 


break; 


case 'c': (clear the stack 


239) break; 


case 'q': (clean up and exit 
236) 
(clear the stack 

239) = 

while (!Stack_empty(sp)) { 


AP_T x = Stack_pop(sp); 
AP_free(&x); 


calc 在 清空 栈 时 ， 会 释放 栈 中 的 AP_T 实 例 ， 以 避免 出 现 无 法 访问 、 存 


储 空间 永 不 释放 的 对 象 。 
calc 的 最 后 一 个 代码 块 将 一 连 昌 数字 字符 读 取 到 buf 中 : 


(gather up digits into 


buf 239) = 
{ 
int i = 0; 
for ( ; c != EOF && isdigit(c); c = getchar(), i++) 
if (i < (int)sizeof (buf) - 1) 
buf[i] = c; 


if (1 > (int)sizeof (buf) - 1) 


~ 


i = (int)sizeof (buf) - 1; 
Fmt_fprint(stderr, 
"?integer constant exceeds %d digits\n", i); 
} 
buf[i] = 0; 
if (c != EOF) 
ungetc(c, stdin); 


} 


如 该 代码 所 示 ，calc 遇 到 超 长 的 数字 时 会 输出 错误 信息 并 截断 。 


18.3 ”实现 


AP 接 口 的 实现 ， 说 明了 XP 接口 的 典型 用 法 。 对 于 有 符号 数 ，AP 接 
口 使 用 了 一 种 符号 一 绝对 值 的 表示 : 一 个 AP_T 实 例 指向 一 个 结构 ， 其 
中 包括 该 数 的 符号 及 其 绝对 值 (一 个 XP_T 实 例 ) : 


(ap.c 


= 
#include <ctype.h> 
#include <limits.h> 
#include <stdlib.h> 
#include <string.h> 
#include "assert.h" 
#include "ap.h" 
#include "fmt.h" 
#include "xp.h" 


#include "mem.h" 
#define T AP_T 


struct T { 
int sign; 
int ndigits; 
int size; 
XP_T digits; 
}; 


(macros 


242) 


(prototypes 


242) 


(static functions 


241) 


(functions 


241) 


sign 为 1 或 者 -1。size 是 分 配 的 数位 的 数目 ，digits 指 向 这 些 数 位 ， 它 可 能 
大 于 ndigits， 即 当前 使 用 数位 的 数目 。 即 ， 一 个 AP_T 实 例 表 示 一 个 数 
值 ， 具 体 的 数值 由 digits[0..ndigits-1] 中 的 XP_T 实 例 给 出 。AP_T 总 是 规 
格 化 的 :其 最 高 有 效 数 位 总 是 非 零 值 ， 除 非 这 个 AP_T 实 例 本 身 表示 
0。 因 而 ，ndigits 通 常 小 于 size。 图 18-1 给 出 了 一 个 11 数 位 的 AP_T 实 
例 ， 在 小 端 序 计算 机 ( 字 宽 32 位 ， 字 符 位 宽 8 位 ) 上 表示 的 数值 为 751 
702 468 129。digits 数 组 中 不 使 用 的 元 素 以 阴影 表示 。 


sign 


ndigits 
size 


digits 


Hoca 
“加 


all 


图 18-1 {£59751 702 468 129 的 AP_T 实 例 的 小 端 序 布 


AP_T 实 例 通 过 下 列 函 数 分 配 : 


(functions 


241) = 
T AP_new(long int n) { 
return set(mk(sizeof (long int)), n); 


} 


THER aN Va A SAS EK Bomk 5E BSE PP CBRE, mko Bc SP aA 
size 个 数位 的 AP_T 实 例 ， 并 将 其 初始 化 为 0。 


(static functions 


241) = 
static T mk(int size) { 
T z = CALLOC(1, sizeof (*z) + size); 


assert(size > 0); 


z->sign = 1; 

z->size = size; 

z->ndigits = 1; 

z->digits = (XP_T)(z + 1); 
return Z; 


} 


在 符号 一 绝对 值 的 表示 法 中 ，0 有 两 种 表示 ， 按 照 惯例 ，AP 接 口 只 使 用 
正 数 表示 ， 如 mk 中 的 代码 所 示 。 


AP_new 调 用 静态 函数 set 将 AP_T 实 例 初 始 化 为 long int 类 型 参数 的 
值 ，set 照 例 将 long int 类 型 的 最 小 值 作为 特例 处 理 : 


(static functions 


241) += 
static T set(T z, long int n) { 
if (n == LONG_MIN) 
XP_fromint(z->size, z->digits, LONG_MAX + 1UL); 
else if (n < 0) 
XP_fromint(z->size, z->digits, -n); 
else 
XP_fromint(z->size, z->digits, n); 
z->sign =n<0O? -1: 1; 


return normalize(z, z->size); 


对 z->sign 的 赋值 是 一 个 惯用 法 ， 以 确保 sign 的 值 是 1 或 -1，0 的 sign 值 为 
1。XP_T 实 例 是 非 规格 化 的 ， 因 为 其 最 高 有 效 数 位 可 能 为 0。 当 一 个 AP 
函数 生成 的 XP_T 实 例 可 能 非 规格 化 的 时 候 ， 它 可 以 调用 normalize 计 算 
正确 的 ndigits 字 段 ， 来 修正 这 种 情况 : 


(static functions 


241) += 
static T normalize(T z, int n) { 
z->ndigits = XP_length(n, z->digits); 


return Z; 


(prototypes 


242) = 


static T normalize(T z, int n); 


AP_TSEPIHIS FN ENOL: 


(functions 


241) += 

void AP_free(T *z) { 
assert(z && *z); 
FREE(*z); 

} 


AP_new 是 分 配 AP_ T 实 例 的 唯一 途径 ， 因 此 ， 让 AP_free“ 知 道 ” 结 构 本 
身 和 digit 数 组 的 空间 是 只 调用 一 次 分 配 操作 得 到 的 ， 事 实 上 是 安全 的 。 


18.3.1 取 反 和 乘法 


取 反 是 最 容易 实现 的 算术 操作 ， 它 说 明了 在 符号 一 绝对 值 表示 法 
会 重复 出 现 的 一 个 问题 : 


(functions 


241) += 


T AP_neg(T x) { 


T 2; 


assert(x); 

z = mk(x->ndigits); 

memcpy(z->digits, x->digits, x->ndigits); 
z->ndigits = x->ndigits; 

zZ->sign = iszero(z) ? 1: -x->sign; 


return Z; 


(macros 


242) = 


#define iszero(x) ((xX)->ndigits==1 && (x)->digits[0]==0) 


对 x 取 反 只 需 复制 值 并 翻转 符号 即 可 ， 值 为 0 的 情况 下 例外 。iszero 宏 利 
用 了 AP_T 实 例 均 为 规格 化 的 约束 : 表示 0 的 AP_T 实 例 只 会 有 一 个 数 
fit ° 

yA Eels ly], RRA SHAME, xy P RR 


之 和 。 在 x 和 y 符 号 相同 时 ， 或 当 x 和 y 中 至 少 有 一 个 为 0 时 ， 乘 积 结果 是 
正 数 ， 人 否则 为 负数 。 符 号 值 为 -1 或 1， 因 此 下 述 比较 


(x and 


y have the same sign 


243) = 


((x->sign4y->sign) == 0) 


在 x 和 y 符 号 相同 时 为 tue ， 否 则 为 false。AP_mul 调 用 XP_mul 计 算 |x| 


ly, FIT RAT SAR: 


(functions 


241) += 
T AP_mul(T x, T y) { 


T Z; 


assert (x); 
assert(y); 


ZL = 


mk(x->ndigits + y->ndigits); 


XP_mul(z->digits, x->ndigits, x->digits, y->ndigits, 


y->digits); 
normalize(z, z->size); 
Z->sign = iszero(z) 


|| <x and 


y have the same sign 


243) ? 1 : -1; 


return Z; 


回忆 前 文 可 知 ，XP_mul 计 算 [z=z+xy, 


而 mk 将 z 初 始 化 为 规格 化 的 0。 


18.3.2 ”加 减法 


加 法 更 为 复杂 ， 因 为 其 中 可 能 需要 减法 ， 这 取决 于 x 和 y 的 符号 和 
值 。 下 面 综述 了 各 种 情况 。 


y-|x| if y>|xl 
-(|X|—y) if y< |x| 
x -|y tae T 
-(\M¥-x) if x < |y 


—(|x| + |v) 


当 x 和 y 均 为 非 负 值 时 ，|x|+ly| 等 于 xt+y， 因 此 对 角 线 上 的 两 种 情 
形 ， 可 以 通过 计算 |x|+|y| 并 将 结 末 的 从 号 设置 为 x 的 符号 来 完成 。 与 x 和 y 
中 的 较 长 者 相 比 ， 结 果 可 能 多 出 一 个 数位 。 


(functions 
241) += 


T AP_add(T x, T y) { 
T Z; 


assert(x); 
assert(y); 


if ( (x and 


y have the same sign 


243) ) { 


z = add(mk(maxdigits(x,y) + 1), x, 


z->sign = iszero(z) ? 1: 


} else 


(set 


X and 


y have different signs 


244) 


return Z; 


(macros 


242) += 


#define maxdigits(x, y 


) (x 


)->ndigits > (y 


x->sign; 


)->ndigits ? \ 


(x 


)->ndigits : (y 


)->ndigits) 


add 调 用 XP_add 完 成 实际 的 加 法 操作 : 


(static functions 


241) += 
static T add(T z, T x, T y) { 


int n = y->ndigits; 


if (x->ndigits < n) 
return add(z, y, x); 
else if (x->ndigits > n) { 
int carry = XP_add(n, z->digits, x->digits, 
y->digits, 0); 
z->digits[z->size-1] = XP_sum(x->ndigits - n, 
&z->digits[n], &x->digits[n], carry); 
} else 
z->digits[n] = XP_add(n, z->digits, x->digits, 
y->digits, 0); 


return normalize(z, z->size); 


add 中 的 第 一 个 测试 确保 x 是 较 长 的 操作 数 。 如 果 x 比 y 长 ，XP_add 计 算 n 
数位 的 和 保存 到 z->digits[0..n-1] 中 ， 并 返回 进位 值 。 该 进位 值 与 x- 
>digits[n..x->ndigits-1] 的 和 和 ， 叉 在 计算 后 保存 到 z->digits [n..z->size-1] ° 
如 果 x 和 y 数 位 的 数目 相同 ， 如 前 例 XP_add 计 算 n 数 位 的 和 ， 进 位 值 即 为 
z 的 最 高 有 效 数位 。 


加 法 的 其 他 情形 也 可 以 人 简化。 在 x<<0，y>0， 且 |x|>|y| 时 ，x+y 的 绝 
对 值 是 |x|-ly|， 和 的 符号 为 负 。 在 x>20，y<0， 且 |x|>|y| 时 ，x+y 的 绝对 值 
也 是 |x|-ly|， 但 其 符号 为 正 。 在 这 两 种 情况 下 ， 结 果 的 符号 都 与 x 的 符号 
相同 。 如 下 所 述 ，sub 和 cmp 分 别 执行 减法 和 比较 操作 。 结 果 的 数位 数 
目 与 x 相同 。 


(set 

z to 

x+y when 

x and 

y have different signs 
244) = 

if (cmp(x, y) > 0) { 


z = sub(mk(x->ndigits), x, y); 


z->sign = iszero(z) ? 1 : x->sign; 


在 x<0，y>0， 且 |x|<ly| 时 ，x+y 的 绝对 值 是 |y|-|x|， 和 的 符号 为 正 。 在 
x>0，y<0， 且 |x|<|y| 时 ，x+y 的 绝对 值 也 是 |y|l-|x|， 但 其 符号 为 负 。 在 这 
两 种 情况 下 ， 结 果 的 符号 都 与 x 的 符号 相反 ， 其 数位 数目 与 y 相 同 。 


(set 


x and 

y have different signs 
244) += 

else { 


z = sub(mk(y->ndigits), y, x); 


z->sign = iszero(z) ? 1 : -x->sign; 


A IŽE SIMA aT o PRA T EREA PED ° 


-(|x - Iyi) if |x| > |y] 


-(|x| + y) 
IM—|x| if [xl < |y] 


~(y-x) ifxsy 


这 里 ， 非 对 角 线 情形 都 比较 容易 ， 只 需要 计算 |x|+ly 
符号 设置 为 x 的 符号 ， 即 可 处 理 : 


， 并 将 结果 的 


(functions 


241) += 
T AP_sub(T x, T y) { 
T Z; 


assert(x); 
assert(y); 


if (! (x and 


y have the same sign 


243) ) { 
z = add(mk(maxdigits(x,y) + 1), x, y); 
z->sign = iszero(z) ? 1 : x->sign; 
} else 
(set 
z to 
x-y when 


x and 


y have the same sign 


245) 


return Z; 


对 角 线 情形 取决 于 x 和 y 相 对 大 小 。 当 |x|>|y| 时 ，x-y 的 绝对 值 是 |x|-ly|， 其 
符号 与 x 相同 ， 当 |x|<|y| 时 ，x-y 的 绝对 值 是 |y|-|x|， 而 其 符号 与 x 相反 。 


(set 


x and 
y have the same sign 


245) = 
if (cmp(x, y) > 0) { 
z = sub(mk(x->ndigits), x, y); 
Z->sign = iszero(z) ? 1 : x->sign; 
} else { 
z = sub(mk(y->ndigits), y, x); 


z->sign = iszero(z) ? 1 : -x->sign; 


类 似 于 add，sub 也 调用 XP 函数 来 实现 减法 ， 其 中 y 不 大 于 x。 


(static functions 


241) += 
static T sub(T z, T x, T y) { 


int borrow, n = y->ndigits; 


borrow = XP_sub(n, z->digits, x->digits, 
y->digits, 0); 

if (x->ndigits > n) 

borrow = XP_diff(x->ndigits - n, &z->digits[n], 
&x->digits[n], borrow); 

assert(borrow == 0); 

return normalize(z, z->size); 


} 


当 x 比 y 长 时 ， 对 XP sub 的 调用 计算 了 n 数 位 的 差 值 ， 并 保存 到 >- 
>digits[0..n-1] 中 ， 同 时 返回 借 位 值 。x->digits[n..x->ndigits-1] 与 该 借 位 
值 的 差 值 ， 则 通过 XP_dif 计 算 ， 保 存 到 z->digits[n..z->size-1] 中 ， 最 终 
的 借 位 值 为 0， 因 为 调用 sub 时 ，|x|z|ly| 总 是 成 立 的 。 如 果 x 和 y 数 位 数目 
相同 ， 同 样 使 用 XP_sub 计 算 n 数 位 的 差 值 ， 但 借 位 值 不 会 同 高 位 传播 。 


18.3.3 BRE 


除法 类 似 于 乘法 ， 但 舍 入 规则 使 除法 变 得 比较 复杂 。 当 x 和 y 符 号 
相同 时 ， 商 为 |xMly| 且 是 正 数 ， 余 数 为 |xImodly| 由 。 当 x 和 y 符 号 不 同 


时 ， 商 是 负数 ， 其 绝对 值 为 
(4|x|modly|A-A0MY) 。 当 |xmodly 


xly| ( xlmodly 
为 0 时 ， 余 数 为 


为 0 时 ) 或 |xl/ly|+1 
， 否 则 余数 


x|modly 


为 yl-(xImodly)。 因 而 余数 总 是 正 数 。 商 和 余数 的 数位 数目 ， (最 多 
时 ) 分 别 与 x 和 y 的 数位 数目 相同 。 

(functions 

241) += 


T AP_div(T x, T y) { 


Tq, r; 


(q =- x/y, r ~ x mod y 


246) 
if (! (x and 


y have the same sign 


243) && !iszero(r)) { 
int carry = XP_sum(q->size, q->digits, 
q->digits, 1); 
assert(carry == 0); 
normalize(q, g->size); 
} 
AP_free(&r); 


return q; 


(q ~ x/y, r — x mod y 


246) = 

assert(x); 
assert(y); 
assert(!iszero(y)); 


r = mk(y->ndigits); 


{ 
XP_T tmp = ALLOC(x->ndigits + y->ndigits + 2); 
XP_div(x->ndigits, q->digits, x->digits, 
y->ndigits, y->digits, r->digits, tmp); 
FREE(tmp); 
} 


normalize(q, q->size); 
normalize(r, r->size); 
q->sign = iszero(q) 


|| <x and 


y have the same sign 


243) ? 1 : -1; 


FExMly te S AET, AP_div## PARER”, AAKKMSEF 


AP_mod 的 行为 刚好 相反 : 它 只 校正 余数 ， 而 丢弃 商 。 


(functions 


241) += 
T AP_mod(T x, T y) { 


Tq, r; 
(q ~ x/y, r — x mod y 


246) 
if (! (x and 


y have the same sign 


243) && !iszero(r)) { 
int borrow = XP_sub(r->size, r->digits, 
y->digits, r->digits, 0); 
assert(borrow == 0); 
normalize(r, r->size); 
} 
AP_free(&q); 


return r; 


18.3.4 BoE 


当 第 三 个 参数 p 为 NULL 时 ，AP_pow 返 回 叉 。 当 p 不 是 NULL 时 ， 
AP_pow 返 回 (Cxy ) mod p ° 


(functions 


241) += 
T AP_pow(T x, Ty, T p) € 


T Z; 


assert(x); 

assert(y); 

assert(y->sign == 1); 

assert(!p || p->sign==1 && !iszero(p) && !isone(p)); 


(special cases 


248) 
if (p) 


(z— xy 


mod p 


249) 


else 


(ze xY 


248) 


return Z; 


(macros 


242) += 


#define isone(x 


) (x 
)->ndigits==1 && (x)->digits[0]==1) 


为 计算 z=x” ， 一 种 容易 采用 的 做 法 是 将 z 设 置 为 1， 连 续 y 次 用 x 乘 以 z。 
其 问题 在 于 ， 如 条 y 很 大 ， 比 方 说 y 的 十 进 制 表示 有 200 个 数位 ， 那 么 这 
种 方法 花费 的 时 间 ， 将 远 超过 宇宙 的 年 龄 。 数 学 规则 有 助 于 商 化 计 
算 : 


2 


allt = OR) ”如 果 x 为 偶数 

xx = (XXX 否则 

这 些 规则 使 得 我 们 可 以 通过 递归 方式 实现 AP_pow， 并 将 中 间 结果 乘 广 
或 乘积 即 可 。 递 归 的 深度 〈 以 及 由 此 得 出 的 操作 步 数 ) 与 lg y 成 正比 。 
当 x 或 为 0 或 1 时 ， 递 归 过 程 到 达 最 低 点 ， 因 为 0 =0, 151, x°=1, x! 
=x。 前 三 种 特例 处 理 如 下 ; 


(special cases 


248) = 


if (iszero(x)) 

return AP_new(0); 
if (iszero(y)) 

return AP_new(1); 
if (isone(x)) 


return AP_new( (y is even 


248) ? 1 : x->sign); 


(y is even 


248) = 
(((y)->digits[0]&1) == 0) 


递归 过 程 实现 了 对 第 四 个 特例 以 及 上 述 方 程式 摘 述 的 两 种 情形 的 
ADEE 


(ze xy 


248) = 

if (isone(y)) 
z = AP_addi(x, 0); 

else { 
T y2 = AP_rshift(y, 1), t = AP_pow(x, y2, NULL); 
z = AP_mul(t, t); 


AP_free(&y2); 
AP_free(&t); 


if (! (y is even 


248) ) { 
z = AP_mul(x, t = Z); 
AP_free(&t); 


y 是 正 数 ， 因 此 将 其 右 移 1 位 ， 相 当 于 计算 了 yw2。 中 间 结 果 w2、xy“” 和 
(xI I- ) 都 被 释放 ， 以 避免 出 现 无 法 访问 的 内 存 。 


在 p 不 是 NULL 时 ，AP_pow 计 算 了 xy modp。 当 p>1 时 ， 我 们 实际 上 
不 能 计算 x” ， 因 为 该 值 可 能 太 大 ， 例 如 ， 如 有 果 x 的 十 进 制 表示 有 10 个 数 
位 ， 而 y 为 200， 结 果 x? 的 数位 数 ， 可 能 比 宇宙 中 的 原子 数 还 多 ， 但 xy 
modp 实 际 上 是 一 个 小 得 多 的 数 。 可 使 用 下 述 关 于 模 乘 法 的 数学 规则 ， 
来 避免 出 现 过 大 的 数字 : 


(x-y) modp=(Xmodp)(ymodp)) mod p 


AP_mod 和 静态 函数 mulmod 可 协同 实现 该 规则 。mulmod 使 用 AP_mod 和 
AP_mul 来 实现 xy modp， 请 注意 释放 临时 乘积 xy。 


(static functions 


241) += 


static T mulmod(T x, T y, T p) { 


T z, xy = AP_mul(x, y); 
z = AP_mod(xy, p); 
AP_free(&xy); 


return Z; 


p 不 是 NULL 时 ，AP_pow 的 代码 与 p 为 NULL 时 的 代码 几乎 相同 ， 
是 调用 了 mulmod 来 执行 乘法 ， 并 将 p 传 递 给 对 AP_pow 的 递归 调用 ， 


在 y 力 奇数 时 使 用 mod p 来 缩减 x。 


(ze xy 


mod p 


249) = 
if (isone(y)) 
z = AP_mod(x, p); 


else { 


T y2 = AP_rshift(y, 1), t = AP_pow(x, y2, 


z = mulmod(t, t, p); 
AP_free(&y2); 
AP_free(&t); 


if (! (y is even 


248) ) { 
Z = mulmod(y2 = AP_mod(x, p), t = Z, 
AP_free(&y2); 


p); 


p); 


O 


N 
/ 


mn 


AP_free(&t); 


18.3.5 ”比较 


Lex Ay Waa, BORD ae SEAME o Sx<y > x=y > x>y 
时 ，AP_cmp 分 别 返 回 小 于 零 、 等 于 零 、 大 于 零 的 值 。 当 x 和 y 符 号 不 同 
时 ，AP_cmp 只 需 返 回 x 的 符号 ， 否 则 ， 它 必须 比较 二 者 的 绝对 值 : 


(functions 


241) += 
int AP_cmp(T x, T y) { 
assert(x); 
assert(y); 


if (! (x and 
y have the same sign 


243) ) 
return x->sign; 
else if (x->sign == 1) 
return cmp(x, y); 
else 


return cmp(y, x); 


当 x 和 y 都 是 正 数 时 ， 如 果 |x|<ly|， 即 有 x<y， 依 次 类 推 。 当 x 和 y 都 是 负 
数 时 ， 如 果 |x|>|y|， 则 有 x<y， 这 是 在 第 二 次 调用 cmp 时 逆转 参数 顺序 的 
原因 。 在 cmp 检 查 操作 数 长 度 不 同 的 情形 之 后 ， 由 XP_cmp 完 成 实际 的 
比较 : 


(static functions 


241) += 
static int cmp(T x, T y) { 
if (x->ndigits != y->ndigits) 
return x->ndigits - y->ndigits; 


else 
return XP_cmp(x->ndigits, x->digits, y->digits); 


(prototypes 


242) += 
static int cmp(T x, T y); 


18.3.6 (ep WAL 


AP 接口 的 六 个 便捷 函数 ， 都 以 一 个 AP_T 实 例 作 为 第 一 个 参数 ， 而 
使 用 有 符号 长 整数 作为 第 二 个 参数 。 每 个 函数 部 将 长 整数 传递 给 set， 
来 初始 化 一 个 临时 的 AP_T 实 例 ， 然 后 调用 更 通用 的 操作 。AP_addi 说 
明了 这 种 方法 : 


(functions 


241) += 
T AP_addi(T x, long int y) { 


(declare and initialize 


t 250) 


return AP_add(x, set(&t, y)); 


(declare and initialize 


t 250) = 

unsigned char d[sizeof (unsigned long)]; 
struct T t; 

t.size = sizeof d; 


t.digits = d; 


上 上述 的 第 二 个 代码 块 ， 通 过 声明 适当 的 局 部 变量 ， 在 栈 上 分 配 了 临时 
的 AP_T 实 例 以 及 相关 的 digits 数 组 。 这 是 可 能 的 ， 因 为 digits 数 组 的 大 小 
受 限于 unsigned longs WAF BY © 


FARA 4 TEEN UE OR AD SPT BES: 


(functions 


) += 


T AP_subi(T x, long int y) { 


(declare and initialize 


t 250) 


return AP_sub(x, set(&t, y)); 


T AP_muli(T x, long int y) { 


(declare and initialize 


t 250) 


return AP_mul(x, set(&t, y)); 


T AP_divi(T x, long int y) { 


(declare and initialize 


t 250) 
return AP_div(x, set(&t, y)); 


int AP_cmpi(T x, long int y) { 


(declare and initialize 


t 250) 


return AP_cmp(x, set(&t, y)); 


AP_modi 比 较 古 怪 ， 它 返回 了 long 类 型 ， 而 不 是 AP_T 或 int， 另 外 它 必 
须 丢 弃 AP_mod 返 回 的 AP_T 实 例 。 


(functions 


241) += 
long int AP_modi(T x, long int y) { 
long int rem; 


Tr; 
(declare and initialize 


t 250) 
r = AP_mod(x, set(&t, y)); 
rem = XP_toint(r->ndigits, r->digits); 
AP_free(&r); 


return rem; 


18.3.7 AL 


BSS CERRITO AXP ENE, KRERET OR 
作 。 对 于 AP_lshift， 结 果 的 符号 与 操作 数 相同 ， 结 果 比 操作 数 多 [wy8] 


BUY © 


(functions 


241) += 
T AP_lshift(T x, int s) { 


T Z; 


assert(x); 

assert(s >= 0); 

z = mk(x->ndigits + ((S+7)& ~7)/8); 

XP_lshift(z->size, z->digits, x->ndigits, 
x->digits, s, 0); 

z->sign = x->sign; 


return normalize(z, z->size); 


对 于 AP_rshift， 结 果 比 操作 数 少 | s / 8 | 个 字 节 ， 结 果 有 可 能 为 0， 这 种 
情况 下 其 符号 必须 为 正 。 


T AP_rshift(T x, int s) { 

assert(x); 

assert(s >= 0); 

if (s >= 8*x->ndigits) 
return AP_new(0); 

else { 
T z = mk(x->ndigits - s/8); 
XP_rshift(z->size, z->digits, x->ndigits, 

x->digits, s, 0); 

normalize(z, z->size); 


z->sign = iszero(z) ? 1 : x->sign; 


return Z; 


J 


计 语 名 处理 了 一 种 特例 ， 即 s 指 定 的 移 位 数量 大 于 等 于 x 中 现 有 比特 位 数 
目的 情形 。 


18.3.8 ”与 字符 串 和 整数 的 转换 


AP_toint(x) 1 E] — ^ long int， 其 从 号 与 x 相同 ， 其 绝对 值 等 
于 xlmod (LONG_MAX+1) ° 


(functions 


241) += 
long int AP_toint(T x) { 


unsigned long u; 


assert(x); 
u = XP_toint(x->ndigits, x->digits)%(LONG_MAX + 1UL); 
if (x->sign == -1) 
return -(long)u; 
else 


return (long)u; 


其 余 的 AP 画 数 负 责 AP_T 到 字符 串 的 双 问 转换 。AP_fromstr 将 一 个 
字符 串 转 换 为 一 个 AP_T 实 例 ， 它 接受 一 个 表示 有 符号 数 的 字符 串 ， 语 
法 如 下 : 


number 
={ white 
}[ - |+ ]{ white 
} digit 


{ digit 


其 中 white 表 示 一 个 空格 字符 ， 而 digit 表 示 指 定 基 数 下 的 一 个 数字 
字符 ， 基 数 必须 在 2~36 〈 含 ) 。 对 于 大 于 10 的 基数 ， 用 字母 来 表示 大 
于 9 的 数位 。AP_fromstr 调 用 了 XP_fromstr， 当 过 到 非法 字符 或 0 字符 时 
将 停止 扫描 其 字符 串 参 数 。 


(functions 


241) += 
T AP_fromstr(const char *str, int base, char **end) { 
T Z; 


const char *p = str; 


char *endp, sign = '\O'; 


int carry; 


assert(p); 
assert(base >= 2 && base <= 36); 
while (*p && isspace(*p) ) 
ptt, 
if (*p == '-' || *p == '+') 
Sign = *p++; 
(z ~ © 253) 
carry = XP_fromstr(z->size, z->digits, p, 
base, &endp); 
assert(carry == 0); 
normalize(z, z->size); 
if (endp == p) { 
endp = (char *)str; 


Z = AP_new(0); 


} else 
Z->sign = iszero(z) || sign != '-' 2? 41: -1; 
if (end) 


*end = (char *)endp; 


return Z; 


AP_fromstr 将 endp 的 地 址 传递 给 XP_fromstr， 因 为 它 需 要 知道 扫描 过 程 
结束 于 哪个 字符 ， 以 便 检 查 非 法 的 输入 。 如 果 end 不 是 NULL , 
AP_fromstr 将 *end 设 置 为 endp。 


z 中 比特 位 的 数目 是 nlg base， 其 中 n 是 字符 串 中 数字 字符 的 数目 ， 
因而 z 中 的 XP_T 实 例 中 的 digits 数 组 ， 至 少 要 包含 m=(n'lg base)/8 个 字 
节 。 假 定 base 为 2X* ， 那 么 m=n:lg (2k )/8=k-n/8。 因 而 ， 如 果 我 们 选择 k， 
使 得 k 值 最 小 ， 且 2* 是 大 于 等 于 base ， 那 么 z 需 要 [4 . py8] 个 数位 。 对 
于 基数 base 下 每 个 数字 表示 的 比特 位 数目 ，k 估 算 了 其 上 界 。 例 如 ， 当 
base 为 10 时 ， 每 个 数位 承载 lg 10s3.32 比 特 位 ，k 为 4。 当 base 从 2 增长 到 
36 时 ，k 的 变化 范围 为 1 到 6 。 


(z ~ 0 253) = 
{ 
const char *start; 
int k, n= 0; 
for ( ; *p == 'O' && p[1] == 'O'; ptt) 
i 
start = p; 


for ( ; (*p is a digit in 


base 253) ; p++) 

n++; 
for (k = 1; (1<<k) < base; k++) 
z = mk(((k*n + 7)& ~7)/8); 


p = start; 


(*p is a digit in 


base 253) = 
( '0 <= *p && *p <= '9' && *p < 'O' + base 
|| 'a' <= *p && *p <= 'Z' && *p < 'a' + base - 10 
|| 'A' <= *p && *p <= 'Z' && *p < 'A' + base - 10) 


代码 块 <z ~0 253> 中 第 一 个 for 循 环 ， 略 过 了 前 部 连续 的 数字 0 。 


AP tostr 可 以 使 用 类 似 的 技巧 ， 来 估计 base 基 数 下 用 字符 串 表 示 X 所 
需 字 符 的 数目 n 。 目 是 m=(n.lg base)/8。 如 果 我 
们 在 x* 小 于 或 等 于 base 的 条 件 下 ， 选 择 最 大 的 k 值 ， 那 么 m=n']1g (2* 
/8=k-n/8, WAL 8 - 7 大 | ， 外 加 一 个 表示 字符 串 结 尾 的 0 字符 。 这 里 ，k 
估算 的 是 在 base 基 数 下 每 个 数位 所 表示 比特 位 数 的 下 界 ， 因 而 n 则 估算 
了 输出 所 需 数位 数目 的 上 界 。 例 如 ， 当 base 为 10 时 ，x 中 的 每 个 数位 都 
可 以 输出 8/lg 10s2.41 个 十 进 制 数位 ，k 为 3， 因 此 为 x 中 的 每 个 数位 分 配 
[8/3 |=3 个 十 进 制 数位 。 当 base 从 36 变 动 到 2 时 ，k 值 的 变动 范围 为 从 5 
到 1 。 


(size ~ number of characters in 


str 253) = 

{ 
int k; 
for (k = 5; (1<<k) > base; k--) 
size = (8*x->ndigits)/k + 1 + 1; 
if (x->sign == -1) 


sizet+; 


AP tostr 用 XP tostr 来 计算 x 的 字符 捉 表 示 : 


(functions 


241) += 
char *AP_tostr(char *str, int size, 


XP_T q; 


assert(x); 

assert(base >= 2 && base <= 36); 
assert(str == NULL || size > 1); 
if (str == NULL) { 


(size ~ number of characters 


str 253) 
str = ALLOC(size); 
} 
q = ALLOC(x->ndigits); 
memcpy(q, x->digits, x->ndigits) 
if (x->sign == -1) { 
str[0] = '-'; 
XP_tostr(str + 1, size - 1, 


} else 


int base, T x) { 


in 


1 


base, x->ndigits, 


XP_tostr(str, size, base, x->ndigits, q); 


FREE(q); 


return str; 


q); 


最 后 一 个 AP 汞 数 是 AP_fmt， 这 是 一 个 Fmt 风 格 的 转换 函数 ， 用 于 
输出 AP_T 实 例 。 它 使 用 AP_tostr 把 AP_T 值 格式 化 为 十 进 制 字 符 串 表 
示 ， 并 调用 Fmt_putd 输 出 字符 串 。 


(functions 


241) += 

void AP_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
Tox 


char *buf; 


assert(app && flags); 

x = va_arg(*app, T); 

assert(x); 

buf = AP_tostr(NULL, ©, 10, x); 

Fmt_putd(buf, strlen(buf), put, cl, flags, 
width, precision); 


FREE(buf); 


18.4 扩展 阅读 


AP_T 类 似 于 某 些 编程 语言 中 的 大 整数 (bignum) 。 例 如 ，Icon 比 
较 新 的 版 本 只 有 一 个 整数 类 型 ， 但 根据 需要 可 以 使 用 任意 精度 算术 来 
表示 计算 的 值 。 程 序 员 无 需 区 分 本 机 整数 和 任意 精度 整数 。 


用 于 任意 精度 算术 的 设施 ， 通 常 以 标准 库 或 软件 包 的 形式 提供 。 
例如 ，LISP 语 言 系统 很 久 前 就 包含 了 bignum 软 件 包 ， 而 ML 也 有 类 似 的 
KIFE 


大 多 数 符号 运算 系统 都 会 执行 任意 精度 算术 ， 因 为 这 是 其 目的 所 
在 。 例 如 ，Mathematica [Wolfram，1988] 提 供 了 任意 长 度 的 整数 ， 以 及 
分 子 和 分 母 都 是 任意 长 度 整 数 的 有 理 数 。 男 一 种 符号 计算 系统 Maple 
V[Char 等 人 ，1992] 也 提供 了 类 似 的 功能 。 


18.5 习题 


18.1 AP_div 和 AP_mod 每 次 调用 时 都 分 配 并 释放 临时 空间 。 修 改 
二 者 的 实现 ， 使 之 能 够 共享 tnp， 只 需 分 配 一 次 ， 而 后 可 以 跟踪 其 大 
小 ， 并 在 必要 时 扩展 其 空间 。 


18.2 ”AP_pow 中 使 用 的 递归 算法 ， 等 效 于 我 们 所 熟悉 的 迭代 算法 
(通过 重复 地 乘 方 和 乘积 来 计算 z=xy， 参 见 [Knuth ，1981] 的 4.6.3 
W): 


> 1 do 


if y 


is odd then u =- u-z 


y- y 


/2 


Z- U'Z 


迭代 通常 比 递归 快速 ， 但 这 种 方法 真正 的 好 处 在 于 ， 它 只 需要 为 中 间 
值 分 配 比较 少 的 空间 。 使 用 这 种 算法 重 狐 实现 AP_pow， 并 测量 其 在 时 
间 和 空间 方面 的 改进 。x 和 y 至 少 有 多 大 ， 这 个 算法 才能 显著 好 于 递归 
算法 ? 


18.3 ”实现 AP_ceil(AP_T x, AP_T y) 和 AP _floor(AP_T x, AP_T y), 
二 者 返回 xy 的 向 上 伟人 入 取 整 和 向 下 舍 入 取 整 。 其 务必 规定 在 x 和 y 符 号 
不 同时 函数 的 行为 。 


18.4 AP 接口 顺 有 些 “ 哮 杂 ”， 有 些 函 数 有 很 多 参数 ， 很 容易 混 消 
输入 和 输出 参数 。 设 计 并 实现 一 个 新 的 接口 ， 其 中 使 用 Seq_T 作 为 栈 ， 


函数 从 栈 中 获取 操作 数 。 请 专注 于 使 接口 尽 可 能 干净 ， 但 不 要 省 略 重 
要 的 功能 。 


18.5 ”实现 一 个 AP 芳 数 ， 可 以 在 指定 范围 内 生成 均匀 分 布 的 随机 


18.6 ”设计 一 个 接口 ， 其 函数 用 于 完成 对 任意 n 值 的 模 n 算 术 操 作 ， 
因此 这 些 函 数 的 参数 和 返回 值 来 目 于 从 0 到 n-1 的 整数 集 。 请 注意 除法 : 
仅 当 该 集合 为 有 限 域 时 (n 为 质数 ) ， 除 法 才 有 定义 。 


18.7 ”两 个 n 数 位 的 数 ， 计 算 其 乘积 的 时 间 与 2” 成 正比 (参见 17.2.2 
节 ) ° A. Karatsuba 在 1962 年 说 明了 如 何 使 乘积 运算 的 时 间 与 nls8 成 正 
比 (参见 [Geddes, Czapor and Labahn，1992] 的 4.3 节 和 [Knuth，1981] 的 
4.3.3 节 ) 。 一 个 n 数 位 的 数 x， 可 以 拆 分 为 高 低 各 m2 数位 的 和 ， 即 ， 
x=aB™2 +b。 乘 积 xy 可 以 改写 为 : 


xy=(aB™? +b)(cB™? +d)=acB" +(ad+bc)B™ +bd, 


计算 改写 后 的 表达 式 需 要 4 次 乘法 和 1 次 加 法 。 该 中 间 形 式 的 系数 还 可 
以 改写 为 : 


ad+bc=ac+bd+(a-b)(d-c). 


因而 ， 乘 积 xy 只 需要 3 次 乘法 (ac、bd 和 (a-b)(d-c))” ， 两 次 减法 ， 和 两 
次 加 法 。 在 n 比 较 大 时 ， 减 少 一 次 nm/2 数 位 的 乘法 ， 可 以 减少 乘法 的 执行 
时 间 ， 但 代价 是 增加 了 表示 中 间 值 所 需 的 空间 。 使 用 Karatsuba 的 算法 
实现 AP_mul 一 个 递归 版 本 ， 确 定 对 什么 样 的 n 值 ， 该 算法 能 够 比 显著 快 
于 “朴素 ”算法 。 使 用 XP_mul 进 行 中 间 步 骤 的 计算 。 


[1] 请 注意 ， 按 本 书 的 定义 ， 当 x 和 y 均 为 负数 时 ，Xx=y*q+r 的 天 
系 式 并 不 成 立 。 一 -一 译 者 注 
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三 个 与 算术 有 关 的 接口 ， 最 后 一 个 是 MP， 该 接口 导出 的 函数 实现 
了 无 符号 整数 和 (二 进 制 补 码 ) 有 符号 整数 的 多 精度 算术 。 类 似 于 
XP，MP 公 开 了 对 n-bit 整 数 的 表示 ，MP 范 数 可 以 对 给 定 长 度 的 整数 进 
行 操作 。 与 XP 不 同 的 是 ，MP 整 数 长 度 的 单位 是 比特 位 ， 而 MP 接口 函 
数 同时 实现 了 有 符号 和 无 符号 算术 。 类 似 于 AP 接口 函数 ，MP 接 口 函 数 
会 强制 实施 常见 的 已 检查 的 运行 时 错误 。 


MP 同样 面向 需要 扩展 精度 算术 的 应 用 程序 ， 但 此 类 应 用 程序 可 能 
有 一 些 附 加 的 要 求 ， 例 如 ， 可 能 需要 对 内 存 分 配 进行 更 细 粒 度 控制 ， 
同时 需要 无 符号 和 有 符号 操作 ， 或 必须 模拟 二 进 制 补 码 下 的 mn-bit 算 术 
运算 。 这 种 应 用 程序 的 例子 ， 包 括 编译 器 和 使 用 加 密 功 能 的 应 用 程 
序 。 一 些 现代 加 密 算 法 需要 操作 包含 数 百 个 数位 的 固定 精度 整数 。 


而 一 些 编译 器 必须 使 用 多 精度 整数 。 交 义 编 译 器 可 能 运行 在 X 平 台 
上 ， 却 在 为 Y 平 台 生成 代码 。 如 果 Y 平 台 上 的 整数 长 度 比 X 平 台大 ， 编 
译 器 可 以 使 用 MP 来 操作 Y 平 台 上 的 整数 。 男 外 ， 编 译 紫 还 必须 使 用 多 
精度 算术 将 浮 点 前 数 转 换 为 与 其 最 接近 的 浮 点 值 。 


19.1 #0 


MPO LRA, B49 SA a, ANE ST ery 
n-bit A fF S/A FB BERRA KR o 


#ifndef MP_INCLUDED 
#define MP_INCLUDED 
#include <stdarg.h> 
#include <stddef.h> 


#include "except.h" 


#define T MP_T 


typedef unsigned char *T; 
(exported exceptions 


258) 


(exported functions 
258) 


#undef T 
#endif 


类 似 于 XP 接口 ，MP 公 开 了 n-bit 整 数 的 表示 ， 即 [8 | 个 字 方 ， 字 
节 序 为 最 低 有 效 字 节 首先 存储 。 对 于 有 符号 整数 ，MP 使 用 二 进 制 补 码 
表示 ， 比 特 位 n-1 为 符号 位 。 


不 同 于 XP 接 口 国 数 ，MP 中 的 函数 实现 了 利 见 的 已 检查 的 运行 时 错 
误 ， 例 如 ， 回 该 接口 中 任意 函数 传递 的 MP_T 为 NULL， 都 是 已 检查 的 
运行 时 错误 。 但 是 ， 如 果 传 递 的 MP_T 参 数 太 小 ， 以 至 于 无 法 保存 n-bit 
整数 ， 则 是 未 检查 的 运行 时 错误 。 


MP 目 动 初始 化 来 对 32 位 整数 执行 算术 操作 。 可 以 调用 


(exported functions 


258) = 


extern int MP_set(int n); 


修改 MP 的 设置 ， 使 得 后 续 调 用 执行 n-bit 算 术 。MP_set 返 回 此 前 设 定 的 
整数 长 度 。 如 有 果 n 小 于 2， 则 造成 已 检查 的 运行 时 错误 。 在 初始 化 后 ， 
大 多 数 应 用 程序 只 使 用 同一 长 度 的 扩展 整数 。 例 如 ， 交 叉 编 译 絮 可 能 
使 用 128 位 算术 来 操作 种 数 。 这 种 设计 迎合 了 此 类 应 用 程序 的 需求 ， 这 
简化 了 其 他 MP 函数 的 用 法 ， 同 样 商 化 了 其 参数 列表 。 和 省略 n 是 显 而 易 
见 的 简化 ， 但 更 重要 的 简化 是 对 源 和 目标 参数 不 再 有 限制 :同一 MP_T 实 
例 总 是 可 以 作为 源 和 目标 同时 出 现 。 消 除 这 些 约束 是 可 能 的 ， 因 为 其 
中 一 些 函 数 所 需 的 临时 空间 只 依赖 于 n， 因 而 可 以 通过 MP_set 只 分 配 一 
次 。 


这 种 设计 也 避免 了 内 存 分 配 。MP_set 可 能 3 引发 Mem_Failed 异 常 ， 
但 在 其 他 48 个 MP 函数 中 ， 仪 有 4 个 会 进行 内 存 分 配 。 其 中 之 一 是 


(exported functions 


258) += 


extern T MP_new(unsigned long u); 


该 画 数 会 分 配 一 个 适当 大 小 的 MP_T 实 例 ， 将 其 初始 化 为 u， 并 返回 该 
实例 。 


(exported functions 
258) += 


extern T MP_fromint (T z, long v); 


extern T MP_fromintu(T z, unsigned long u); 


这 两 个 函数 将 z 设 置 为 v 或 LU， 并 返回 z。 MP_new ` MP _fromint 41 
MP_fromintu 可 能 引发 下 述 异 党 : 


(exported exceptions 


258) = 


extern const Except_T MP_Overflow; 


引发 该 异常 的 条 件 是 n 个 比特 位 无 法 容纳 u 或 v 。 MP _ new 和 MP _fromintu 
在 u 大 于 2? -1 时 3 引发 MP_Overflow 异 常 ， 而 MP_fromint 在 v 小 于 -2™1 或 大 
2"! -1 时 引发 MP_Overflow 了 异常。 


所 有 的 MP 接口 图 数 都 在 引发 异 肖 之 前 计算 结 末 。 多 余 的 比特 位 只 
ERAF ° PA, 


MP_T Z; 
MP_set(8); 
z = MP_new(0); 


MP_fromintu(z, OXxFFF); 


将 z 设 置 为 0xFF 并 引发 MP_Overflow 异 常 。 如 果 这 种 操作 是 适当 的 ， 客 
户 程序 可 以 使 用 TRY-EXCEPT 语 句 忽略 该 异常 。 例 如 ， 


MP_T Z; 
MP_set(8); 
z = MP_new(0O); 
TRY 

MP_fromintu(z, OXxFFF); 
EXCEPT(MP_Overflow) ; 
END_TRY; 
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这 种 惯例 不 适用 于 下 述 两 个 函数 
(exported functions 
258) += 


extern unsigned long MP_tointu(T x); 


extern long MP_toint (T x); 


这 两 个 芳 数 将 x 的 值 转换 为 有 符号 或 无 符号 long 型 返回 。 当 返回 类 型 无 
法 容纳 x 的 值 时 ， 这 两 个 图 数 都 会 引发 MP_Overflow 异 币 ， 而 且 当 异 旬 
发 生 时 ， 无 法 获得 转换 的 部 分 结果 。 客 户 程序 可 以 使 用 


(exported functions 


258) += 


extern T MP_cvt (int m, T z, T x); 


extern T MP_cvtu(int m, T z, T x); 


将 x 转 换 为 适当 大 小 的 MP_T 实 例 。MP_cvt 和 MP_cvtu 将 x 转 换 为 m-bit 的 
z 中 有 符号 或 无 符号 MP_T 实 例 ， 并 返回 z。 当 m 个 比特 位 无 法 容纳 x 时 ， 
这 两 个 函数 会 引发 MP_Overflow 异 常 ， 但 在 引发 异常 前 ， 这 两 个 范 数 会 
将 部 分 结果 设置 到 z。 这 样 ， 


unsigned char z[sizeof (unsigned)]; 
TRY 
MP_cvtu(8*sizeof (unsigned), z, x); 
EXCEPT(MP_Overflow) ; 
END_TRY; 


会 将 z 设 置 为 x 中 最 低 8 * sizeof(unsigned) 个 比特 位 ， 而 不 管 x 本 身长 度 如 
何 。 


在 m 超 出 x 中 比特 位 的 数目 时 ，MP_cvtu 用 0 填充 结果 的 高 位 ， 而 
MP_cvt 用 x 的 符号 位 填充 结果 的 高 位 。 如 果 m 小 于 2， 则 造成 已 检查 的 
运行 时 错误 ， 如 琳 z 太 小 而 无 法 容纳 m 个 比特 位 的 整数 ， 则 造成 未 检查 
的 运行 时 错误 。 


算术 函数 如 下 
(exported functions 
258) += 


extern T MP_add (T z, T x, T y); 


extern T MP_sub (T z, T x, T y); 


extern T MP_mul (T z, T x, T y); 
extern T MP_div (T z, T x, T y); 
extern T MP_mod (T z, T x, T y); 
extern T MP_neg (T z, T x); 

extern T MP_addu(T z, T x, T y); 
extern T MP_subu(T z, T x, T y); 
extern T MP_mulu(T z, T x, T y); 
extern T MP_divu(T z, T x, T y); 
extern T MP_modu(T z, T x, T y); 


函数 名 以 u 结 尾 者 实现 了 无 符号 算术 ， 而 其 他 函数 则 实现 了 二 进 制 补 码 
符号 算术 。 无 符号 和 有 符号 运算 之 间 唯 一 的 差别 是 二 者 的 洪 出 语义 ， 
将 在 下 文 详 述 。MP_add、MP_sub、MP_mul、MP_div 和 MP_mod 以 及 
处 理 无 符号 整数 的 对 应 碎 数 ， 分 别 计算 z=x+ty、z=x-y、z=x:y、z=X/y 和 和 
z=xmody， 并 返回 z。 和 斜体 表示 x、y 和 z 的 值 。MP_neg 将 z 设 置 为 x 的 
反 ， 并 返回 z。 如果 x 和 y 符 号 不 同 ，MP_div 和 MP_mod 回 负 无 穷 大 方 癌 
SA, Kx mod y 的 结果 总 是 正 数 。 


除了 MP_divu 和 MP_modu 之 外 ， 所 有 这 些 函 数 在 z 无 法 容纳 计算 结 
果 时 ， 都 会 引发 MP_ Overflow 有 异常 。 当 x<y 时 ，MP subu 引 发 
MP_Overflow 异 常 ， 当 x 和 y 人 符号 不 同 且 结 果 的 符号 不 同 于 x 的 符号 时 ， 
MP_sub 引 发 MP_Overflow 异 常 。 当 y 为 0 时 ,MP _div、MP_divu ` 
MP _ mod 和 MP _modu 将 引发 下 列 异 销 。 


(exported exceptions 


258) += 


extern const Except_T MP_Dividebyzero; 
当 y=0 时 ， 


(exported functions 


258) += 
extern T MP_mul2u(T z, T x, T y); 


extern T MP_mul2 (T z, T x, T y); 


这 两 个 函数 返回 的 乘积 都 是 乘 数 鸭 两 倍 长 : 二 者 都 计算 z=X.y， — 
ene FRAEZ. AM, ARTAR o ee 
法 容纳 2n 个 比特 位 ， 将 人 去 行 时 错误 。 请 注意， a 
能 够 容纳 2n 个 比特 位 ， 它 不 能 通过 MP_new 分 配 。 


下 述 便捷 函数 可 以 接受 一 个 unsigned long 或 long 作 为 第 二 个 操作 
数 : 


(exported functions 


258) += 

extern T MP_addi (T z, T x, long y); 
extern T MP_subi (T z, T x, long y); 
extern T MP_muli (T z, T x, long y); 
extern T MP_divi (T z, T x, long y); 


extern T MP_addui(T z, T x, unsigned long y); 


extern T MP_subui(T z, T x, unsigned long y); 


extern T MP_mului(T z, T x, unsigned long y); 


extern T MP_divui(T z, T x, unsigned long y); 


extern long MP_modi (T x, long y); 


extern unsigned long MP_modui(T x, unsigned long y); 


ik EER BSE in ESS YO AY A Ee (只 要 将 后 者 的 第 二 个 操 
作 数 初始 化 为 y) ， 也 会 引发 类 似 的 异常 。 例 如 ， 


MP_T Z, X; 
long y; 


MP_muli(z, x, y); 


JÈ 


FNT 


MP_T Z, X; 
long y; 
{ 
MP_T t = MP_new(0); 
int overflow = 0; 
TRY 
MP_fromint(t, y); 
EXCEPT (MP_Over f Low) 
overflow = 1; 
END_TRY; 
MP_mul(z, x, t); 


if (overflow) 


RAISE(MP_Overflow) ; 


但 便捷 函数 并 不 进行 内 存 分 配 操 作 。 请 注意 ， 如 果 y 太 大 ， 这 些 便捷 画 
数 都 会 引发 MP_Overflow 异 常 ， 包 含 MP_divui 和 MP modui 在 内 ， 但 这 
些 画 数 都 是 在 计算 z 之 后 才 3 引 发 异常 。 


(exported functions 


258) += 
extern int MP_cmp (T x, T y); 


extern int MP_cmpi (T x, long y); 


extern int MP_cmpu (T x, T y); 


extern int MP_cmpui(T x, unsigned long y); 


上 述 几 个 比较 x 和 y， 针 对 x<y、x=y 或 x>y 的 情形 ， 分 别 返 回 小 于 零 、 等 
于 零 或 大 于 零 的 值 。MP_cmpi 和 MP_cmpui 并 不 要 求 MP_T 实 例 一 定 能 
容纳 y 值 ， 它 们 只 是 比较 x 和 y 。 


下 列 函数 将 其 输入 的 MP_T 参 数 当 做 n 比 符 位 的 字符 串 处 理 : 


(exported functions 


258) += 

extern T MP_and (T z, T x, T y); 

extern T MP_or (Tz, Tx, T y); 
T 
T 


extern T MP_xor (T z x, T y); 


extern T MP_not (T z x); 


extern T MP_andi(T z, T x, unsigned long y); 
extern T MP_ori (T z, T x, unsigned long y); 


extern T MP_xori(T z, T x, unsigned long y); 


MP_and、MP_or、MP_xor， 以 及 对 应 的 用 “立即 数 ”( 指 直接 传递 
unsigned long 参 数 ) 作为 参数 的 函数 ， 分 别 将 z 设 置 为 x< 和 y 的 按 位 与 、 
按 位 或 、 异 或 ， 并 返回 z。MP_not 将 z 设 置 为 等 于 x 按 位 取 反 ， 并 返回 
z。 这 些 芳 数 从 不 引发 异常 ， 在 y 过 大 时 ， 对 应 的 便捷 函数 将 名 略 可 能 
发 生 的 溢出 。 例 如 ， 


MP T Z, X; 
unsigned long y; 


MP_andi(z, x, y); 


unsigned long y; 


{ 
MP_T t = MP_new(0); 
TRY 

MP_fromintu(t, y); 

EXCEPT(MP_Overflow) ; 
END_TRY; 
MP_and(z, x, t); 

} 
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(exported functions 


258) += 
extern T MP_lshift(T z, T x, int s); 
extern T MP_rshift(T z, T x, int s); 


extern T MP_ashift(T z, T x, int s); 


这 三 个 函数 实现 了 逻辑 移 位 和 算术 移 位 。MP_jlshift 将 z 设 置 为 x 左 移 s 个 
比特 位 ，MP_rshift 将 z 设 置 为 x 右 移 s 个 比特 位 。 这 两 个 函数 都 用 0 填充 
空 出 的 比特 位 ， 并 返回 z。MP_ashift 类 似 于 MP_rshift， 但 用 x 的 符号 位 
填充 空 出 的 比特 位 。 传 递 负 的 s 值 ， 是 一 个 已 检查 的 运行 时 错误 。 


下 列 函 数 负 责 MP_T 与 字符 串 的 转换 。 


(exported functions 


258) += 
extern T MP_fromstr(T z, const char *str, 
int base, char **end); 
extern char *MP_tostr (char *str, int size, 
int base, T x); 
extern void MP_fmt (int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision); 
extern void MP_fmtu (int code, va_list *app, 
int put(int c, void *cl), void *cl, 


unsigned char flags[], int width, int precision); 


MP _fromstr 将 str 中 的 字符 串 解 释 为 base 基 数 下 的 一 个 无 符号 整数 ， 将 z 
设置 为 该 整数 ， 并 返回 z。 该 琅 数 忽略 字符 串 开头 的 空白 ， 并 处 理 其 后 
以 base 为 基数 的 一 个 或 多 个 数位 。 对 大 于 10 的 基数 来 说 ， 小 写 和 大 写字 
用 于 指定 超过 9 的 数位 。 MP_fromstr 类 似 于 strtoul: 如 果 end 不 是 
NULL，MP_fromstr 将 *end 设 置 为 扫描 结束 处 字符 的 地 址 。 如 有 果 str 没 有 
指定 一 个 有 效 的 整数 ， 且 end 不 是 NULL ，MP_fromstr 将 *end 设 置 为 
str， 并 返回 NULL。 如 有 果 str 中 的 字符 串 指定 了 一 个 过 大 的 整数 ， 
MP_fromstr 将 引发 MP_Overflow 异 常 。str 为 NULL， 或 者 base 小 于 2 或 大 
于 36， 都 是 已 检查 的 运行 时 错误 。 


MP_tostr 用 一 个 0 结尾 字符 串 填充 str[0..size - 1]， 该 字符 串 表 示 在 基 
数 base 下 的 x， 最 后 返回 str。 如 果 str 为 NULL，MP_tostr 忽 略 size 并 分 配 
必要 的 字符 串 ， 客 户 程 序 负 中 释放 该 字符 串 。 如 果 base 小 于 2 或 大 于 
36， 或 str 不 是 NULL ， 而 size 太 小 导致 str 无 法 容纳 生成 的 0 结尾 字符 串 ， 
则 造成 已 检查 的 运行 时 错误 。 在 str 是 NULL 时 ，MP_tostr 可 能 引发 


Mem. Failed: ° 


MP_fmt 和 MP_fmtu 是 Fmt 风 格 的 转换 函数 ， 用 于 输出 MP_T 实 例 。 
二 者 都 消耗 一 个 MP_T 和 一 个 基数 ，MP_fmt 将 有 符号 MP_T 转 换 为 字符 
串 ，MP_fmtu 将 无 符号 MP_T 转 换 为 字符 串 ， 前 者 使 用 类 似 于 printf 
的 %d 限 定 符 ， 后 者 使 用 类 似 于 printf 的 %u 限 定 符 。 这 两 个 函数 都 可 能 
引发 Mem_Failed 异 常 。app 或 flags 是 NULL， 则 为 已 检查 的 运行 时 错 
TR ° 


19.2 例子 : 另 一 个 计算 器 


mpcalc 类 似 于 calc， 只 是 对 n-bit 整 数 执行 有 符号 和 无 符号 计算 而 
已 。 它 示范 了 MP 接口 的 用 法 。 类 似 于 calc，mpcalc 使 用 了 波兰 后 绥 表 
示 法 (Polish suffix notation) : 值 被 推 入 栈 上 ， 运 算 符 将 其 操作 数 从 栈 
中 弹出 ， 并 将 运算 结果 再 次 推 入 栈 上 。 值 是 当前 输入 基数 下 的 一 个 或 
多 个 连续 的 数位 ， 而 文 持 的 运算 符 如 下 。 


~ AR 
& 5 
+ JMË 
| 或 

- 减法 
^ 异 或 
* 乘法 
< ER 
/ BRIE 
> AR 
% 取 模 


! T 


i 设置 输入 基数 
o 设置 输出 基数 
k 设置 精度 

c 清空 栈 

d 复制 栈 顶 部 的 值 

p 输出 栈 顶 部 的 值 

f 目 顶 回 下 ， 输 出 栈 上 所 有 的 介 
q 退出 


空格 字符 用 于 分 隔 值 ， 其 他 情况 下 忽略 空格 ， 其 他 字符 被 作为 无 
法 识别 的 运算 符 处 理 。 栈 的 大 小 只 受 可 用 内 存 的 限制 , 但 发 生 栈 下 光 
会 出 现 诊断 消息 。 


命令 nk 指定 了 mpcalc 操 作 的 整数 的 长 度 ， 其 中 nm 至 少 为 2， 默 认 值 
为 32。 当 执行 k 运 算 符 时 ， 栈 必须 为 空 。i 和 o 运 算 符 指定 了 输入 输出 基 
数 ， 二 者 的 默认 值 都 是 10。 当 输入 基数 超出 10 时 ， 一 个 值 的 第 一 个 数 
位 必须 在 0 到 9 之 间 (4) 。 


如 果 输 出 基数 为 2、8 或 16，+-* 和 % 运 算 符 执行 无 符号 算术 ， 而 p 
和 f 运 算 符 输 出 无 符号 值 。 对 所 有 其 他 基数 ，+-*/ 和 % 执 行 有 符号 算术 ， 
p 和 人 得 出 有 符号 值 。 一 运算 符 总 是 执行 有 符号 算术 ， 而 &|^!< 和 > 运算 符 
总 是 将 其 操作 数 解释 为 无 符号 数 。 


mpcalc 在 出 现 溢 出 和 除 以 零 时 ， 会 通知 用 户 。 滋 出 情况 下 的 结 
果 ， 是 值 的 最 低 n 个 比特 位 。 对 于 除 以 零 ， 结 果 为 零 。 


mpcalc 的 整体 结构 与 calc 非 常 相似 ， 它 解释 输入 、 计 算 值 、 并 管理 
一 个 栈 。 


(mpcalc.c 


d= 
#include <ctype.h> 
#include <stdio.h> 
#include <string.h> 
#include <stdlib.h> 
#include <limits.h> 


#include "mem.h" 


#include "seq.h" 
#include "fmt.h" 
#include "mp.h" 


(mpcalc data 


264) 


(mpcalc functions 


264) 


包含 seq.h 表 明 ，mpcalc 使 用 序列 来 实现 栈 : 


‘mpcalc data 


264) = 


Seq_T sp; 
(initialization 
264) = 

sp = Seq_new(0); 


值 通过 调用 Seq_addhi 压 栈 ， 通 过 调用 Seq_remhi 从 栈 中 弹出 。 在 序列 为 
空 时 ，mpcalc 不 能 调用 Seq_remhi， 因 此 它 将 所 有 的 弹 栈 操作 都 封装 在 
一 个 函数 中 ， 其 中 检查 了 栈 下 洲 的 情形 。 


(mpcalc functions 


264) = 
MP_T pop(void) { 
if (Seq_length(sp) > 0) 
return Seq_remhi(sp); 
else { 
Fmt_fprint(stderr, "?stack underflow\n"); 


return MP_new(0); 


} 
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使 栈 为 空 蕊 是 如 此 ， 因 为 这 样 做 简化 了 错误 检查 。 


mpcalc 的 主 循环 需要 处 理 MP 接 口 的 异常 ， 因 此 比 calc 的 主 循环 复 
杂 一 点 。 类 似 于 calc 的 主 循环 ，mpcalc 的 主 循环 读 取 下 一 个 值 或 运算 

， 如 果 读 取 到 运算 符 ， 则 执行 对 应 的 操作 。 它 也 准备 了 一 些 MP_T 实 
a ， 用 于 保存 操作 数 和 结果 ， 它 使 用 TRYEXCEPT 语 句 来 捕获 异常 。 


(mpcalc functions 
264) += 
int main(int argc, char *argv[]) { 
int c; 


(initialization 


264) 
while ((c = getchar()) != EOF) { 


volatile MP_T x = NULL, y = NULL, z = NULL; 
TRY 


switch (c) { 


(cases 
265) 
} 
EXCEPT(MP_Overflow) 
Fmt_fprint(stderr, "?overflow\n"); 
EXCEPT(MP_Dividebyzero) 
Fmt_fprint(stderr, "?divide by ©\n"); 
END_TRY; 
if (z) 
Seq_addhi(sp, z); 
FREE(x); 
FREE(y); 
} 


(clean up and exit 


265) 
} 


(clean up and exit 


265) = 


(clear the stack 


265) 
Seq_free(&sp); 
return EXIT_SUCCESS; 


x 和 y 用 于 表示 操作 数 ，z 用 于 表示 结果 。 如 果 在 处 理 一 个 运算 符 之 
后 x 和 y 不 是 NULL， 那 么 二 者 保存 了 由 栈 中 弹出 的 操作 数 ， 因 而 必须 释 
放 。 如 果 z 不 是 NULL， 则 其 中 保存 了 结果 ， 必 须 压 栈 。 这 种 方法 允许 
TRY-EXCEPT 语 句 只 出 现 一 次 ， 而 无 需 对 处理 每 个 运算 符 的 代码 都 使 


用 o 
一 个 输入 字符 或 者 为 空格 ， 或 者 是 值 的 第 一 个 数位 ， 或 者 是 运算 
， 或 是 其 他 〈 将 导致 错误 ) 。 这 里 是 易于 处 理 的 情形 : 
(cases 
265) = 
default: 
if (isprint(c)) 
Fmt_fprint(stderr, "?'%c'", c); 
else 
Fmt_fprint(stderr, "?'\\%030'", c); 
Fmt_fprint(stderr, " is unimplemented\n"); 
break; 
case ' ': case '\t': case '\n': case '\f': case '\r': 
break; 
case 'c': (clear the stack 


265) break; 


case 'q': (clean up and exit 


265) 


(clear the stack 


265) = 

while (Seq_length(sp) > 0) { 
MP_T x = Seq_remhi(sp); 
FREE(x); 


数字 字符 标识 值 的 开始 ，mpcalc 收 集 各 个 数位 ， 并 调用 MP_fromstr 将 其 
转换 为 MP_T 实 例 。ibase 是 当前 输入 基数 。 


(cases 


265) = 
case '0': case '1': case '2': case '3': case '4': 
case '5': case '6': case '7': case '8': case '9': { 
char buf[512]; 
z = MP_new(0O); 


(gather up digits into 


buf 266) 
MP_fromstr(z, buf, ibase, NULL); 


break; 


(gather up digits into 


buf 266) = 
{ 
int i = 0; 


for ( ; <c is a digit in 


ibase 266) ; c = getchar(), i++) 
if (i < (int)sizeof (buf) - 1) 
buf[i] = C; 
if (i > (int)sizeof (buf) - 1) { 
i = (int)sizeof (buf) - 1; 
Fmt_fprint(stderr, 
"integer constant exceeds %d digits\n", i); 
} 
buf[i] = '\0'; 
if (c != EOF) 


ungetc(c, stdin); 


ZMEREN, SHAA, SPARTA o WEF CRU, WK T aiy 
用 的 结果 不 是 NULL ，c 即 为 ibase 基 数 下 的 一 个 数位 : 


(c is a digit in 


ibase 266) = 


strchr(&"zyxwvutsrqponmlkjihgfedcba9876543210"[36-ibase], 


tolower(c) ) 


处 理 大 部 分 算术 运算 符 的 case 语 句 都 具有 同样 的 形式 ; 


(cases 


265) += 


case '+': (pop 


x & y, set 


Z 266) (*f->add)(z, x, y); break; 


case '-': (pop 


x & y, set 


z 266) (*f->sub)(z, x, y); break; 


case '*': (pop 


x & y, set 


z 266) (*f->mul)(z, x, y); break; 


case '/': (pop 


x & y, set 


z 266) (*f->div)(z, x, y); break; 


case '%': (pop 


x & y, set 


z 266) (*f->mod)(z, x, y); break; 


case '&': (pop 


x & y, set 
Z 266) MP_and(z, x, y); break; 
case '|': (pop 
x & y, set 
Z 266) MP_or (z, x, y); break; 
case 'A': (pop 
x & y, set 
Z 266) MP_xor(z, x, y); break; 
case '!': z = pop(); MP_not(z, z); break; 
case '~': Z = pop(); MP_neg(z, z); break; 
(pop 


Z 266) = 


y = pop(); x = pop(); 
z = MP_new(0); 


f 指 同一 个 结构 实例 ， 其 中 保存 了 一 些 男 数 指针 ， 
决 于 mpcalc 息 执行 有 符号 算 木 还 是 无 符号 算术 。 


(mpcalc data 


264) += 


int ibase = 10; 


int obase = 10; 


struct { 
const char *fmt; 
MP_T (*add)(MP_T, MP_T, MP_T); 
MP_T (*sub)(MP_T, MP_T, MP_T); 
MP_T (*mul)(MP_T, MP_T, MP_T); 
MP_T (*div)(MP_T, MP_T, MP_T); 
MP_T (*mod)(MP_T, MP_T, MP_T); 
} s = { "%D\n", 


BAFE m AREE BK 


MP_add, MP_sub, MP_mul, MP div， MP_mod }, 


u = { "%U\n", 


MP_addu, MP_subu, MP_mulu, MP_divu, MP_modu }, 


*f = &s; 


obase Hi HEIN oH), AR SERA E10, fgs, 


函数 指针 指向 执行 有 符号 算术 的 MP 函数 。i 运 算 符 可 以 改变 


数 取 


其 中 的 


“ibase, 


oS 


算 符 可 以 改变 obase， 这 两 个 运算 符 者 可 能 修改 f， 使 之 指 网 u 或 s: 


《cases 


265) += 
case 'i': case 'o': { 
long n; 
x = pop(); 
n = MP_toint(x); 
if (n < 2 || n > 36) 
Fmt_fprint(stderr, "?%d is an illegal base\n",n); 
else if (c == '1') 
ibase = n; 
else 


obase = n; 


if (obase == 2 || obase == 8 || obase == 16) 
f = &u; 

else 
f = &s; 

break; 

} 


如 果 x 不 能 转换 为 为 long (BN MP_toint3| AMP Overflow) ， 或 
MP toint 返 回 的 结果 整数 不 是 一 个 合法 的 基数 ， 那 么 基数 不 会 改变 。 


s 和 u 两 个 结构 实例 中 也 包含 了 一 个 Fmt 风 格 的 格式 串 ， 用 于 输出 
MP_T 实 例 。mpcalc 将 MP_fmt 注 册 到 %D 格 式 限定 符 ， 而 将 MP_fmtu 注 
册 到 %U 限 定 符 : 


(initialization 


264) += 
Fmt_register('D', MP_fmt); 


Fmt_register('U', MP_fmtu); 


Al if f->fme ay AA [A Ee SARS, AAT pA E H ie EE US a h 
MP_T 实 例 。 请 注意 ，p 将 其 操作 数 从 栈 中 弹出 到 z 中 ， 而 主 循环 中 的 代 


码 又 将 该 值 压 回 栈 中 。 


(cases 


265) += 
case 'p': 
Fmt_print(f->fmt, z = pop(), obase); 
break; 
case 'f': { 
int n = Seq_length(sp); 
while (--n >= 0) 
Fmt_print(f->fmt, Seq_get(sp, n), obase); 
break; 


} 


对 照 calc 的 代码 (参见 18.2 节 ) ， 比 较 二 者 对 运算 符 f 的 处 理 ， 


Seq_T 表 示 栈 时 ， 很 容易 输出 栈 中 全 部 的 值 。 


移 位 运算 符 会 检查 非法 的 移 位 数量 ， 并 就 地 移 位 其 操作 数 : 


当 用 


(cases 


265) += 


case '<': { (get 


s & z 268) ; MP_lshift(z, z, s); break; } 


case '>': { (get 


s & z 268) ; MP_rshift(z, z, s); break; } 


(get 


Ss & Zz 268) 


long s; 


y = pop(); 
Z = pop(); 
s = MP_toint(y); 


if (s < 0 || s > INT_MAX) { 
Fmt_fprint(stderr, 
"?%d is an illegal shift amount\n", s); 


break; 


如 果 MP_toint 引 发 MP_Overflow 异 常 ， 或 s 是 负数 或 超出 最 大 的 int 值 ， 
操作 数 z 只 是 被 压 回 栈 上 。 


余下 的 case 语 句 ， 用 于 处 理 运 算 符 k 和 d: 


(cases 


265) += 
case 'k': { 
long n; 
x = pop(); 
n = MP_toint(x); 
if (n< 2 || n > INT_MAX) 
Fmt_fprint(stderr, 
"2%d is an illegal precision\n", n); 
else if (Seq_length(sp) > 0) 
Fmt_fprint(stderr, "?nonempty stack\n"); 
else 
MP_set(n); 
break; 
} 
case 'd': { 
MP_T X = pop(); 
z = MP_new(0O); 
Seq_addhi(sp, x); 
MP_addui(z, x, 0); 
break; 


} 


同样 ， 对 z 赋 值 后 ， 该 值 会 被 主 循环 中 的 代码 压 栈 。 


19.3 ”实现 


#include <ctype.h> 
#include <string.h> 
#include <stdio.h> 
#include <stdlib.h> 
#include <limits.h> 
#include "assert.h" 
#include "fmt.h" 
#include "mem.h" 
#include "xp.h" 


#include "mp.h" 


#define T MP_T 


(macros 


270) 
(data 


269) 


(static functions 


281) 


(functions 


270) 
(data 


269) = 
const Except_T MP_Dividebyzero = { "Division by zero" }; 


const Except_T MP_Overflow = { "Overflow" }; 


XP 接 口 将 一 个 〈 二 进 制 下 ) m-bit AR Al n/8 En — 1)/8 +14 


FT, BIRASS TEE (n 总 是 正 数 ) 。 下 图 说 明了 MP 接口 如 何 解 
释 这 些 字 市 。 图 中 最 右 侧 为 最 低 有 效 子 市 ， 由 此 辣 左 ， 地 址 逐渐 增 


(n-1)/8  (n-1)/8-1 byte 0 


TT <= 
ai lasia fel 


符号 位 为 比特 位 n-1， 即 字 节 (n-1)/8 中 的 比特 位 (n-1) mod 8。 给 定 
n，MP 除 了 将 n 保 存 为 nbits 之 外 ， 还 计算 三 个 其 关注 的 值 : nbytes， 容 
纳 n 个 比特 位 所 需 的 字 节 数 ; shift， 计 算 符 号 位 时 ， 最 高 有 效 字 节 必 须 
右 移 的 比特 位 数 ， 和 msb， 一 个 掩 码 ， 其 中 有 shift+1 个 比特 位 置 位 ， 用 
于 检测 液 出 。 当 n 为 32 时 ， 这 些 值 分 别 是 


(data 


269) += 
static int nbits = 32; 


static int nbytes = (32-1)/8 + 1; 


static int shift = (32-1)%8; 


static unsigned char msb = OxFF; 


根据 上 述 的 建议 ，MP 使 用 nbytes 和 shift 访 问 符号 位 : 


(macros 


270) = 


#define sign(x) ((x)[nbytes-1]>>shift) 
这 些 值 通 过 MP _set 改 变 : 
(functions 

270) = 

int MP_set(int n) { 


int prev = nbits; 


assert(n > 1); 


(initialize 
270) 

return prev; 
(initialize 


270) = 


nbits =n; 
nbytes = (n-1)/8 + 1; 
shift = (n-1)%8; 


msb = ones(n); 
(macros 


270) += 
#define ones(n) (~(~OQUL<<(((n)-1)%8+1) ) ) 


将 ~0 左 移 (n-1)%8+1 个 比特 位 ， 形 成 如 下 的 掩 码 ， 一 连 串 值 为 1 的 比特 
位 ， 后 接 (n-1) mod 8+1 个 值 为 0 的 比特 位 ， 取 反 后 ， 掩 码 的 最 低位 部 
分 ， 有 (n-1) mod 8+1 个 置 位 的 比特 位 。 之 所 以 用 这 种 方法 定义 ones 安 ， 
是 因 为 除了 传递 给 MP_set 的 值 之 外 ， 它 还 用 作 其 他 的 n 值 。 


MP_set 还 分 配 了 一 些 临 时 空间 ， 供 算术 函数 使 用 ， 如 MP_div。 
而 ， 该 分 配 操作 只 在 MP_set 中 进行 一 次 ， 而 不 是 在 各 个 算术 函数 中 重 
复 进行 。MP_set 分 配 了 足够 的 空间 ， 可 容纳 一 个 占 2nbyte+2 字 节 的 临 
时 MP_T 实 例 ， 和 三 个 占用 nbyte 字 节 的 临时 MP_T 实 例 。 


(data 
269) += 
static unsigned char temp[16 + 16 + 16 + 2*16+2]; 


static T tmp[] = {temp, temp+1*16, temp+2*16, temp+3*16}; 


(initialize 


270) += 

if (tmp[0] != temp) 
FREE(tmp[0]); 

if (nbytes <= 16) 
tmp[O] = temp; 


else 


tmp[0] = ALLOC(3*nbytes + 2*nbytes + 2); 
tmp[1] = tmp[0] + 1*nbytes; 
tmp[2] = tmp[0] + 2*nbytes; 
tmp[3] = tmp[0] + 3*nbytes; 


当 nbytes 不 超过 16 时 (或 当 n 不 超过 128 时 ) ，MP_set 可 以 使 用 静态 分 配 
的 temp。 否则 ， 它 必须 为 临时 变量 分 配 空间 。temp 是 必需 的 ， 因 为 MP 
的 初始 化 语义 ， 已 经 隐 全 了 MP_set(32) 的 语义 。 


大 部 分 MP 函数 都 调用 XP 接口 函数 ， 来 对 nbyte 字 节 的 数值 执行 实 
际 的 算术 运算 ， 接 下 来 检查 结果 是 否 超 过 nbits 个 比特 位 。MP_new 和 
MP_fromintu 说 明了 这 种 策略 。 


(functions 
270) += 


T MP_new(unsigned long u) { 
return MP_fromintu(ALLOC(nbytes), u); 


T MP_fromintu(T z, unsigned long u) { 


unsigned long carry; 


assert(Z); 


(set 


u 271) 


(test for unsigned overflow 


271) 


return Z; 


u 271) = 

carry = XP_fromint(nbytes, z, u); 
carry |= z[nbytes-1]& ~msb; 
Z[nbytes-1] &= msb; 


如 果 XP_fromint 返 回 非 零 的 carry 值 ， 那 么 nbytes 个 字 世 无 法 容纳 u。 如 
采 carry 为 0， 那 么 nbytes 个 字 世 可 以 容纳 u， 但 nbits 个 比特 位 不 见得 能 容 
纳 u。MP_fromintu 必 须 确保 ， 在 z 的 最 高 有 效 字 节 中 ，8 - (shift + 1) 个 最 
高 有 效 比 特 位 都 是 0。MP_set 已 经 将 msb 设 置 为 一 个 掩 码 ， 在 最 低 有 效 
位 部 分 有 shift+1 个 1， 因 此 ~msb 可 用 于 隔离 出 MP_fromintu 所 需 的 各 比 


特 位 ， 然 后 需要 将 该 值 按 位 或 到 carry 中 ， 以 判断 是 否 有 溢出 。 测 试 无 
符号 淤 出 时 ， 只 需要 检测 carry: 


(test for unsigned overflow 
271) = 


if (carry) 
RAISE(MP_Overflow) ; 


请 注意 ，MP_fromintu 在 检测 溢出 之 前 ， 已 经 设置 了 z 的 值 ， 按 照 接口 
说 明 ， 所 有 MP 玉 数 部 必须 在 引发 异常 之 前 设置 其 结 末 。 


检验 有 符号 洲 出 稍微 有 操 复 洲 ， 因 为 这 取决 于 涉及 的 操作 。 
MP_fromint 说 明了 一 个 简单 情形 。 


(functions 
270) += 
T MP_fromint(T z, long v) { 


assert(z); 


(set 


v 272) 


if ( (v is too big 


272) ) 


RAISE(MP_Over flow) ; 
return Z; 


} 


首先 ，MP_fromint 将 z 初 始 化 为 v 的 值 ， 并 注意 只 问 XP_fromint 传 递 正 
值 : 


v 272) = 

if (v == LONG_MIN) { 
XP_fromint(nbytes, z, LONG MAX + 1UL); 
XP_neg(nbytes, z, z, 1); 

} else if (v < 0) { 
XP_fromint(nbytes, z, -v); 
XP_neg(nbytes, z, z, 1); 

} else 
XP_fromint(nbytes, z, v); 


z[nbytes-1] &= msb; 


前 两 个 让 子 句 处 理 负 值 ，z 首 先 设 置 为 v 的 绝对 值 ， 然 后 求 补 (将 1 作为 
XP_neg 的 第 四 个 参数 ) 。MP_fromint 必 须 专门 处 理 大 部 分 负 整 数 ， 
为 它 不 能 对 其 取 反 。 如 果 v 为 负数 ，z 的 最 高 位 部 分 各 个 比特 位 都 是 1 
过 多 的 比特 位 必须 丢弃 。 许 多 MP 函数 使 用 上 文 给 出 的 z[ nbytes - 1] &= 
msb 惯 用 法 ， 来 丢弃 z 的 最 高 有 效 字 方 中 过 多 的 比特 位 。 


对 于 MP_fromint， 当 nbits 小 于 long 的 位 宽 且 v 超 出 了 z 的 表示 苑 
AY, RRL EAR Sat e 


(v is too big 


272) = 
(nbits < 8*(int)sizeof (v) && 


(v < -(1L<<(nbits-1)) || v >= (1L<<(nbits-1)))) 


上 却 中 的 两 个 移 位 表达 式 ， 分 别 计算 了 位 视 为 n 的 有 符号 整数 中 最 小 的 
负数 和 最 大 的 正 数 。 


19.3.1 转换 


MP toint 和 MP_cvt 说 明了 检查 符号 溢出 的 另 一 个 例子 : 


(functions 


270) += 
long MP_toint(T x) { 


unsigned char d[sizeof (unsigned long) ]; 


assert(x); 
MP_cvt(8*sizeof d, d, x); 


return XP_toint(sizeof d, d); 


如 果 d 无 法 容纳 x，MP_cvt 将 引发 MP_Overflow 异 常 ， 如 果 d 可 以 容纳 
X，XP _toint 返 回 期 望 值 。 


MP_cvt 进 行 了 两 种 转换 : 它 会 将 位 宽 较 大 的 MP_T 实 例 转换 为 位 寓 
较 小 的 MP_T 实 例 ， 同 样 也 包括 相反 的 过 程 。 


(functions 


270) += 
T MP_cvt(int m, T z, T x) { 


int fill, i, mbytes = (m - 1)/8 + 1; 


assert(m > 1); 


(checked runtime errors for unary functions 


273) 
fill = sign(x) ? OxFF : 0; 
if (m < nbits) { 


(narrow signed 


x 273) 
} else { 


(widen signed 


X 274) 
} 


return Z; 


(checked runtime errors for unary functions 


273) = 


assert(x); assert(z); 


如 果 m 小 于 nbits，MP_cvt 将 “ 缩 罕 只， 并 将 其 赋值 给 z。 这 种 情况 必须 检 
查 符号 溢出 。 如 果 x 中 的 比特 位 m-1 号 到 比特 位 nbits-1， 或 者 为 全 0， 或 
者 为 全 1， 那 么 m 个 比特 位 即 可 容纳 x， 即 ， 如 果 x 中 过 多 的 比特 位 都 等 
于 x 的 符号 位 ， 那 么 即 可 将 x 当做 位 宽 为 m 的 整数 处 理 。 在 下 述 的 代码 块 
中 ， 如 果 x 为 负数 ， 亿 为 0xFF， 否 则 全 为 0 ， 因 此 ， 如 有 果 比 特 位 x rm - 
1..nbits - 1] 加 都 是 1 或 都 是 0，x[ 讨 ^Afil 尿 该 为 0。 


(narrow signed 


x 273) = 


int carry = (x[mbytes-1]4fill) & ~(ones(m) >> 1) 
[3], 


for (i = mbytes; i < nbytes; i++) 
carry |= x[i]4fill; 
memcpy(z, x, mbytes); 


z[mbytes-1] &= ones(m); 


if (carry) 


RAISE(MP_Overflow) ; 


如 果 x 在 范围 内 ，carry 最 终 的 值 为 0， 否 则 ，carry 的 一 些 比 特 位 将 变 为 
1。 对 carry 的 初始 赋值 ， 名 略 了 z 中 非 符号 位 的 比特 位 多 o 


如 条 m 不 小 于 nbits，MP_cvt 将 “加 宽 冯 ， 并 将 其 赋值 给 z。 这 种 情况 
下 不 会 发 生 淤 出 ， 但 MP_cvt 必 须 扩展 x 的 符号 位 ， 符 号 位 由 们 1 给 


(widen signed 


x 274) = 

memcpy(z, x, nbytes); 

Z[nbytes-1] |= fill& ~msb; 

for (i = nbytes; i < mbytes; i++) 
z[i] = fill; 


z[mbytes-1] &= ones(m); 


MP tointu 使 用 一 种 类 似 的 方法 : 它 通 过 调用 MP_cvtu 将 x 转换 为 一 
个 MP_T 实 例 ， 后 者 的 位 宽 等 同 于 unsignedlong， 然 后 调用 XP_toint 反 回 
其 值 。 


(functions 
270) += 
unsigned long MP_tointu(T x) { 


unsigned char d[sizeof (unsigned long) ]; 


assert(x); 


MP_cvtu(8*sizeof d, d, x); 


return XP_toint(sizeof d, d); 


同样 ，MP_cvtu 或 者 “ 缩 罕 *x， 或 者 “加 沉 ”*x， 然 后 将 其 赋值 给 z。 
(functions 
270) += 


T MP_cvtu(int m, T z, T x) { 


int i, mbytes = (m - 1)/8 + 1; 


assert(m > 1); 


(checked runtime errors for unary functions 


273) 
if (m < nbits) { 
(narrow unsigned 
x 274) 
} else { 
(widen unsigned 
x 274) 
} 
return Z; 


当 m 小 于 nbits 时 ， 如 果 x 的 比特 位 m 到 nbits-1 中 ， 有 任何 一 个 比特 位 为 
1， 都 会 造成 洲 出 ， 检 查 该 情形 的 代码 类 似 于 MP_cvt 中 使 用 的 代码 ， 但 
要 人 简单 些 : 


(narrow unsigned 


x 274) = 
int carry = x[mbytes-1]& ~ones(m); 
for (i = mbytes; i < nbytes; i++) 
carry |= x[i]; 
memcpy(z, x, mbytes); 
z[mbytes-1] &= ones(m); 


(test for unsigned overflow 


271) 
当 m 不 小 于 nbits 时 ， 不 可 能 发 生 洲 出 ，z 中 多 余 的 比特 位 将 清 零 : 
(widen unsigned 
x 274) = 
memcpy(z, x, nbytes); 


for (i = nbytes; i < mbytes; i++) 


z[i] = 0; 


19.3.2 ”无 符号 算术 


如 MP_cvtu 和 MP_cvt 的 代码 所 示 ， 与 对 应 的 有 符号 算术 函数 相 比 ， 
无 符号 算术 函数 更 易于 实现 ， 因 为 它们 不 需要 处 理 符号 ， 而 且 淤 出 的 
检查 更 为 商 单 。 无 符号 加 法 说 明了 一 种 容易 的 情形 ，XP_add 完 成 了 所 
有 的 工作 。 


(functions 


270) += 
T MP_addu(T z, T x, Ty) { 


int carry; 


(checked runtime errors for binary functions 


275) 
carry = XP_add(nbytes, z, x, y, 0); 
carry |= z[nbytes-1]& ~msb; 
z[nbytes-1] &= msb; 


(test for unsigned overflow 


271) 


return Z; 


(checked runtime errors for binary functions 


275) = 


assert(x); assert(y); assert(z); 


WIE TE fa A, (AWE aie 〈 最 高 位 出 现 借 位 ) 时 ， 
MP Overflow F: 


(functions 


270) += 
T MP_subu(T z, T x, Ty) { 


int borrow; 


(checked runtime errors for binary functions 


275) 
borrow = XP_sub(nbytes, z, x, y, 0); 
borrow |= z[nbytes-1]& ~msb; 
Z[nbytes-1] &= msb; 


(test for unsigned underflow 


275) 


return Z; 


(test for unsigned underflow 


275) = 
if (borrow) 


RAISE(MP_Overflow) ; 


MP_mul2uwe sxe) BAVA ENE, ALAS Na] ge Ulla WH o 


(functions 


270) += 
T MP_mul2u(T z, T x, Ty) £ 


(checked runtime errors for binary functions 


275) 
memset(tmp[3], '\0', 2*nbytes); 
XP_mul(tmp[3], nbytes, x, nbytes, y); 
memcpy(z, tmp[3], (2*nbits - 1)/8 + 1); 
return Z; 

} 


MP_mul2u 将 结果 计算 到 tmp[3] 中 ， 然 后 将 tmp[3] 复 制 到 z， 这 使 得 在 调 
用 时 ， 可 以 将 x 或 y 用 作 z， 如 果 MP_mul2u 将 结果 直接 计算 到 z 中 ， 这 样 
区 行 不 通 了 。 因 而 ， 在 MP_set 中 分 配 临 时 空间 的 做 法 ， 不 仅 隅 离 了 分 
配 操作 ， 也 避免 了 对 x 和 y 的 限制 。 


MP_mul 也 调用 了 XP_mul 来 计算 一 个 两 倍 长 度 的 结果 保存 到 
tmp[3]， 然 后 将 该 结果 的 位 宽 “ 缩 窄 " 到 nbits， 并 将 其 赋值 给 z 。 


(functions 
270) += 
T MP_mulu(T z, Tx, Ty) { 


(checked runtime errors for binary functions 


275) 


276) 


memset(tmp[3], '\O', 2*nbytes); 
XP_mul(tmp[3], nbytes, x, nbytes, y); 
memcpy(z, tmp[3], nbytes); 
Z[nbytes-1] &= msb; 


(test for unsigned multiplication overflow 


return Z; 


如 果 tmp[3] 的 比特 位 nbits 到 2 * nbits - 1 中 ， 有 任何 比特 位 是 1， 乘 积 都 
会 溢出 。 基 本 上 ， 可 以 用 MP_cvtu 中 测试 类 似 情 况 的 方法 ， 来 检测 这 种 


TAL: 


(test for unsigned multiplication overflow 


276) 
{ 


int i; 
if (tmp[3][nbytes-1]& ~msb) 
RAISE(MP_Overflow); 
for (i = 0; i < nbytes; i++) 
if (tmp[3][i+nbytes] != 0) 
RAISE(MP_Overflow); 


通过 将 y 复 制 到 一 个 临时 变量 ，MP_divu 避 免 了 XP_div 对 其 参数 的 


限制 : 


(functions 


270) += 
T MP_divu(T z, Tx, Ty) { 


(checked runtime errors for binary functions 


275) 


(copy 
y to a temporary 
276) 
if (!XP_div(nbytes, z, x, nbytes, y, 


RAISE(MP_Dividebyzero); 


return Z; 


y to a temporary 


N 
~ 
O) 
~ 
lll 


memcpy(tmp[1], y, nbytes); 
y = tmp[1]; 


tmp[2], 


tmp[3])) 


tmp[2] 包 含 了 余数 ， 将 被 丢弃 ，y 的 值 首 移 复 制 到 tmp[1]， 而 后 y 又 设置 
为 指向 tmp[1] 对 应 的 MP_T 实 例 。tmp[3] 是 XP_div 所 需 的 长 度 为 2 * nbyte 
+ 2 个 字 市 的 临时 变量 。MP_modu 类 似 ， 但 它 使 用 tmp[2] 来 保存 两 : 


(functions 
270) += 
T MP_modu(T z, T x, Ty) { 


(checked runtime errors for binary functions 


275) 


(copy 


y to a temporary 


276) 
if (!XP_div(nbytes, tmp[2], x, nbytes, y, z, tmp[3])) 
RAISE(MP_Dividebyzero) ; 
return Z; 
} 


19.3.3 ”有 符号 算术 


AP 接 口 的 从 号 一 绝对 值 表示 法 ， 强 制 要 求 AP_add 考 虚 x 和 y 的 符 
号 。 二 进 制 补 码 表示 的 性 质 ， 使 得 MP_add 可 以 避免 这 种 按 情况 分 析 的 
做 法 ， 无 论 x 和 y 的 符号 如 何 ， 只 需要 调用 XP_add 即 可 。 因 而 ， 有 符号 
加 法 几乎 与 无 符号 加 法 相同 ， 唯 一 重要 的 区 别 是 对 盗 出 的 检测 。 


(functions 


270) += 
T MP_add(T z, T x, T y) { 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 
sx = Sign(x); 
sy = sign(y); 
XP_add(nbytes, z, x, y, 0); 
z[nbytes-1] &= msb; 


(test for signed overflow 


277) 


return Z; 


EINER, Sxty A S AE, Aral ge ac Ede o AE Yt AY, 
符号 不 同 于 x 和 y 的 符号 : 


(test for signed overflow 
277) = 


if (sx == sy && sy != sign(z)) 
RAISE(MP_Overflow) ; 


有 符号 减法 的 形式 与 加 法 相同 ， 但 对 海 出 的 检测 不 同 。 


(functions 


270) += 
T MP_sub(T z, Tx, Ty) { 


int sx, Sy; 
(checked runtime errors for binary functions 


275) 
sx = Sign(x); 
sy = sign(y); 
XP_sub(nbytes, z, xX, y, 0); 
z[nbytes-1] &= msb; 


(test for signed underflow 


278) 


return Z; 


对 于 减法 来 说 ， 当 x 和 y 答 号 不 同时 ， 才 可 能 发 生 下 溢 。 当 x 为 正 数 而 y 
为 负数 时 ， 结 果 应 该 是 正 数 ， 当 x 为 负数 而 y 为 正 数 时 ， 结 果 应 该 是 负 
数 。 因 而 ， 如 果 x 和 y 符 号 不 同 ， 而 结果 的 符号 与 y 相 同 ， 那 么 就 发 生 了 
TH e 


(test for signed underflow 


278) = 
if (sx != sy && sy == sign(z)) 
RAISE(MP_Overflow); 


对 x 取 反 ， 等 效 于 从 零 减 去 x， 仅 当 x 为 负数 时 ， 才 可 能 发 生 溢出 ， 
当 结果 上 溢 时 ， 其 仍然 为 负数 。 


(functions 


270) += 
T MP_neg(T z, T x) { 


int sx; 
(checked runtime errors for unary functions 


273) 
sx = sign(x); 
XP_neg(nbytes, z, x, 1); 
z[nbytes-1] &= msb; 
if (sx && sx == sign(z)) 
RAISE(MP_Overflow); 


return Z; 


MP_neg 必 须 清除 z 高 位 部 分 的 过 多 比特 位 ， 因 为 当 x 是 正 数 时 ， 这 些 比 
特 位 都 将 是 0。 


实现 符号 乘法 最 容易 的 方式 是 ， 对 负 的 操作 数 取 反 ， 执 行 无 符号 
乘法 ， 当 两 个 操作 数 符号 不 同时 ， 再 对 结 末 取 反 。 对 于 MP_mul2， 不 
可 能 发 生 淤 出 ， 因 为 它 计 算 了 一 个 双 售 长 度 的 结果 ， 其 细 市 易于 填 
充 : 


(functions 


270) += 
T MP_mul2(T z, T x, Ty) { 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 


(tmp[3] ~ x-y 


278) 
if (sx != sy) 
XP_neg((2*nbits - 1)/8 + 1, z, tmp[3], 1); 
else 
memcpy(z, tmp[3], (2*nbits - 1)/8 + 1); 
return Z; 
} 


(tmp[3] ~ x-y 


278) = 


sx = Sign(x); 
sy = sign(y); 
(if x 


< 0, negate x 


278) 


(if y 
< 0, negate y 


279) 
memset(tmp[3], '\O', 2*nbytes); 


XP_mul(tmp[3], nbytes, x, nbytes, y); 


会 
在 必要 时 取 反 ， 取 反 后 的 值 保 存在 适当 的 临时 变量 中 ， 而 后 使 x 或 y 重 
新 指 癌 临时 变量 。 


乘积 有 2 * nbits 个 比特 位 ， 只 需要 z 有 (2 * nbits - 1)/8+1 个 字 节 。Xx 和 y 会 


(if x 
< ©, negate x 


278) = 

if (sx) { 
XP_neg(nbytes, tmp[0], x, 1); 
x = tmp[0]; 


x[nbytes-1] &= msb; 


(if y 
< 0, negate y 


279) = 

if (sy) { 
XP_neg(nbytes, tmp[1], y, 1); 
y = tmp[1]; 
y[nbytes-1] &= msb; 

} 


按照 惯例 ，MP 接 口 函 数 在 必要 时 会 将 x 和 y 取 反 ， 或 复制 到 tmp[0] 和 
tmp[1] 中 。 


MP_mul 类 似 于 MP_mul2， 但 在 2 * nbits 个 比特 位 的 结果 中 ， 只 有 
最 低位 nbits 个 比特 位 复制 到 z。 当 nbits 个 比特 位 无 法 容纳 结果 时 、 或 操 
作 数 符号 相同 而 结果 为 负数 时 ， 将 产生 海 出 。 


(functions 
270) += 
T MP_mul(T z, T x, T y) { 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 


(tmp[3] - x-y 


278) 
if (sx != sy) 
XP_neg(nbytes, z, tmp[3], 1); 
else 
memcpy(z, tmp[3], nbytes); 
Z[nbytes-1] &= msb; 


(test for unsigned multiplication overflow 


276) 
if (sx == sy && sign(z)) 
RAISE(MP_Overflow); 


return Z; 


当 操作 数 符 号 相同 时 ， 有 符号 除法 非常 类 似 于 无 符号 除法 ， 因 为 
商 和 余数 都 是 非 负 的 。 仅 当 被 除数 是 (n-bit 数 中 ) 最 小 的 负数 、 且 除 
数 为 -1 时 ， 才 会 发 生 浠 出， 这 种 情况 下 ， 丙 将 是 负数 。 


(functions 
270) += 
T MP_div(T z, Tx, Ty) { 


int sx, Sy; 


(checked runtime errors for binary functions 


275) 
sx = sign(x); 
sy = sign(y); 
(if x 


< 0, negate x 


(if y 


< 0, negate y 


279) else (copy 


y to a temporary 


276) 
if (!XP_div(nbytes, z, x, nbytes, y, tmp[2], tmp[3])) 
RAISE(MP_Dividebyzero) ; 
if (sx != sy) { 
(adjust the quotient 
280) 


} else if (Sx && sign(z)) 
RAISE(MP_Overflow) ; 


return Z; 


} 


MpP_div 或 者 对 y 取 反 ， 把 结果 保存 到 临时 变量 中 ， 或 者 将 y 直 接 复制 到 
临时 变量 中 ， 因 为 y 和 2z 可 能 指向 同一 MP_T 实 例 ， 该 画 数 使 用 tmp[2] 保 
存 余 数 。 


对 有 符号 除法 和 取 模 操作 来 说 ， 比 较 复 淋 的 情形 古 ， 两 个 操作 数 
符号 不 同时 。 在 这 种 情况 下 ， 商 是 负数 但 必须 向 负 无 穷 大 方向 舍 入 ， 
余数 是 正 数 。 其 中 需要 进行 的 校正 ， 与 AP_div 和 AP_mod 所 作 的 相同 : 
把 商 取 反 ， 如 果 余 数 非 零 ， 则 将 商 减 1。 另 外 ， 如 果 无 符号 余数 非 零 ， 
y 减 去 该 余数 ， 即 为 正确 的 余数 值 。 


(adjust the quotient 


280) = 

XP_neg(nbytes, z, z, 1); 

if (!iszero(tmp[2])) 
XP_diff(nbytes, z, z, 1); 

z[nbytes-1] &= msb; 


(macros 


270) += 


#define iszero(x) (XP_Length(nbytes, (x) )==1 && (x)[0]==0) 


MP_div3# PRERA, A ARMA HHT ° MP_mod Pir 1E HY Ml BF 4 
RM: 它 只 校正 余数 ， 使 用 mmp[2] 来 保存 商 。 


(functions 
270) += 
T MP_mod(T z, Tx, Ty) { 
int sx, Sy; 
(checked runtime errors for binary functions 
275) 
sx = sign(x); 
sy = sign(y); 


(if x 


< 0, negate x 


(if y 


< 0, negate y 


279) else (copy 


y to a temporary 


276) 


if (!XP_div(nbytes, tmp[2], x, nbytes, y, z, tmp[3])) 
RAISE(MP_Dividebyzero) ; 


if (sx != sy) { 
if (!iszero(z)) 
XP_sub(nbytes, z, y, Zz, 0); 
} else if (sx && sign(tmp[2])) 
RAISE(MP_Overflow); 


return Z; 


19.3.4 EREŽY 


算术 便捷 函数 用 一 个 long 或 unsigned long 作 为 立即 操作 数 ， 如 有 必 
要 将 其 转换 为 MP_T 实 例 ， 而 后 执行 对 应 的 算术 操作 。 当 y 在 基数 28 下 
只 有 单个 数位 时 ， 这 些 函 数 可 以 使 用 XP 接 口 导 出 的 单数 位 函数 。 但 有 
两 种 情况 可 能 导致 洲 出 : y 太 大 ， 或 操作 本 喘 可 能 溢出 。 如 采 y 大 大 ， 
这 些 函 数 必 须 在 引发 异 利之 前 完成 操作 并 赋值 给 z。MP_addui 说 明了 所 
有 便捷 函数 使 用 的 这 种 方法 ; 


(functions 


270) += 
T MP_addui(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 


273) 
if (y < BASE) { 


int carry = XP_sum(nbytes, z, x, Yy); 


carry |= z[nbytes-1]& ~msb; 
Z[nbytes-1] &= msb; 


(test for unsigned overflow 


271) 
} else if (applyu(MP_addu, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


(macros 


270) += 
#define BASE (1<<8) 


如 果 y 只 有 一 个 数位 ，XP_sum 可 以 计算 x+y。 当 nbits 小 于 8 且 y 太 大 时 ， 
该 代码 也 能 检测 到 洲 出 ， 因 为 和 值 对 任何 x 值 来 说 ， 都 太 大 了 。 否 则 ， 
MP_addui 调 用 applyu 将 y 转 换 为 MP_T 实 例 ， 以 便 使 用 更 通用 的 函数 
MP_addu。 如 果 y 太 大 ，applyu 仅 会 在 计算 z 之 后 返回 1: 


(static functions 
281) = 
static int applyu(T op(T, T, T), Tz, T x, 


unsigned long u) { 


unsigned long carry; 


{ T z = tmp[2]; (set 


z to 


u 271) } 
op(z, x, tmp[2]); 
return carry I= 0; 


} 


applyu 使 用 MP _fromintu 中 的 代码 将 unsigned long 操 作 数 转换 到 tmp[2] 
中 。 它 保存 了 转换 操作 出 现 的 进位 ， 因 为 转换 也 可 能 流出 。 接 下 来 它 
调用 其 第 一 个 参数 指定 的 图 数 ， 如 采 保 存 的 进位 值 非 零 ， 则 返回 1， 否 
则 返回 0。 男 数 op 也 可 能 引发 异 毅 ， 但 仅 当 设置 z 值 之 后 ， 才 会 引发 弄 


Au 


吊 o 


无 从 号 减法 和 乘法 的 便捷 函数 是 类 似 的 。 当 y 小 于 28 时 ，MP_subui 
调用 MP_diff ° 


(functions 


270) += 
T MP_subui(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 


275) 
if (y < BASE) { 
int borrow = XP_diff(nbytes, z, x, y); 
borrow |= z[nbytes-1]& ~msb; 


z[nbytes-1] &= msb; 


(test for unsigned underflow 


275) 
} else if (applyu(MP_subu, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


当 y 太 大 时 ，x-y 对 所 有 x 都 会 发 生 下 洲 ， 因 此 在 调用 XP_dif 之 前 
MP_subui 不 需要 检查 y 是 否 太 大 。 


MP_mului 调 用 MP_product， 但 在 nbits 小 于 8 时 ，MP_mului 必 须 显 
式 检查 y 是 否 太 大 ， 因 为 当 x 为 0 时 XP_product 不 会 捕获 该 错误 。 该 检查 
在 计算 z 之 后 进行 。 


T MP_mului(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 


275) 
if (y < BASE) { 
int carry = XP_product(nbytes, z, x, y); 
carry |= z[nbytes-1]& ~msb; 
z[nbytes-1] &= msb; 


(test for unsigned overflow 


271) 


(check if unsigned y is too big 


282) 
} else if (applyu(MP_mulu, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


(check if unsigned 
y is too big 


282) = 
if (nbits < 8 && y >= (1U<<nbits) ) 
RAISE(MP_Overflow); 


MP_divui 和 MP_modui 使 用 了 XP_gquotient， 但 它们 必须 自行 检查 除 
数 为 零 的 情形 〈 因 为 XP_quotient 只 接受 非 零 、 单 数位 的 除数 ) ， 当 
nbits 小 于 8 且 y 太 大 时 ， 它 们 必须 检查 是 否 发生 了 洲 出 。 


(functions 


270) += 
T MP_divui(T z, T x, unsigned long y) { 


(checked runtime errors for unary functions 


275) 
if (y == 0) 
RAISE(MP_Dividebyzero); 


else if (y < BASE) { 


XP_quotient(nbytes, z, xX, y); 


(check if unsigned 


y is too big 


282) 
} else if (applyu(MP_divu, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


MP_modui 调 用 XP_guotient， 但 只 是 为 了 计算 余数 。 它 会 丢弃 计算 
到 tmp[2] 中 的 商 : 


(functions 


270) += 
unsigned long MP_modui(T x, unsigned long y) { 
assert(Xx); 
if (y == 0) 
RAISE(MP_Dividebyzero) ; 
else if (y < BASE) { 
int r = XP_quotient(nbytes, tmp[2], x, y); 


(check if unsigned 


y is too big 


282) 


return r; 
} else if (applyu(MP_modu, tmp[2], x, y)) 
RAISE(MP_Overflow) ; 


return XP_toint(nbytes, tmp[2]); 


有 符号 算术 的 各 个 便捷 函数 使 用 了 同样 的 方法 ， 但 调用 一 个 不 同 
的 apply 函 数 ， 其 使 用 MP_fromint 的 代码 将 long 转 换 为 有 符号 MP_T 实 例 
并 保存 到 tmp[2]， 而 后 调用 所 需 的 函数 ， 如 果 立 即 操作 数 太 大 则 返回 
1， 人 否则 返回 0。 


(static functions 


281) += 

static int apply(T op(T, T, T), Tz, T x, long v) { 
{ T z = tmp[2]; (set z to v 272) } 
op(z, x, tmp[2]); 


return (v is too big 


272) ; 
} 


当 加 小 于 28 时 ， 与 对 应 的 无 符号 便捷 画 数 相 比 ， 有 符号 便捷 画 数 
需要 多 做 一 些 工 作 ， 因 为 它们 必须 处 理 有 符号 操作 数 。 单 数位 XP 画 数 
只 处 理 正 的 单数 位 操作 数 ， 因 此 有 符号 便捷 画 数 必须 使 用 操作 数 的 符 
号 来 确定 调用 哪个 画 数 。 这 里 的 分 析 ， 类 似 于 AP 画 数 所 作 的 分 析 ( 参 
见 18.3.1 节 ) ， 但 MP 的 二 进 制 补 码 表示 简化 了 细节 。 这 里 是 加 法 的 4 种 


情形 。 


y<0 y20 


-(ix| +y) = x-y -xl - Iyi) = x + |y 


x20 Ix] -yi = x-|y |x| + lyi = x+ 人 


当 y 为 负数 时 ， 对 任意 x， 都 有 x+y 等 于 XI 四 ， 因 此 MP_addi 可 以 使 
用 XP diff 来 计算 和 值 ， 当 y 为 非 负 时 ， 它 可 以 使 用 XP_sum。 


(functions 


270) += 
T MP_addi(T z, T x, long y) { 


(checked runtime errors for unary functions 


275) 
if (-BASE < y && y < BASE) { 
int sx = sign(x), sy = y < O; 
if (sy) 
XP_diff(nbytes, z, x, -y); 
else 
XP_sum (nbytes, z, x, y); 
z[nbytes-1] &= msb; 


(test for signed overflow 


277) 
(check if signed 


y is too big 


283) 
} else if (apply(MP_add, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


(check if signed 
y is too big 


283) = 

if (nbits < 8 

&& (y < -(1<<(nbits-1)) || y >= (1<<(nbits-1)))) 
RAISE(MP_Overflow) ; 


有 符号 减法 的 情形 刚好 与 加 法 相反 (AP_sub 的 情形 参见 18.3.2 
PS 


y<0 y20 
-(xl-IM) =x+ 才 -x| +I) = x- Iy 
Ixl + Iyi = x+|y lx| -Iyi = x-|y 


x20 


因此 ， 当 y 为 负数 时 ，MP_subi 调 用 XP_sum 将 |y| 加 到 x， 而 y 为 非 负 
时 ， 则 调用 XP diff ° 


(functions 


270) += 
T MP_subi(T z, T x, long y) { 


(checked runtime errors for unary functions 


275) 
if (-BASE < y && y < BASE) { 
int sx = sign(x), sy = y < O; 
if (sy) 
XP_sum (nbytes, z, x, -y); 
else 
xP_diff (nbytes, z, x, y); 
z[nbytes-1] &= msb; 


(test for signed underflow 


278) 


(check if signed 


y is too big 


283) 
} else if (apply(MP_sub, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


MP _muli 使 用 MP mu 的 策略 : 它 对 负 操 作 数 取 反 ， 通 过 调用 
XP_product 计 算 乘 积 ， 〈 当 操作 数 符 号 不 同时 ) 再 将 乘积 取 反 。 


(functions 


270) += 
T MP_muli(T z, T x, long y) { 


(checked runtime errors for unary functions 


275) 
if (-BASE < y && y < BASE) { 
int sx = sign(x), sy = y < O; 


(if x 
< ©, negate x 


278) 
XP_product(nbytes, z, x, sy ? -y: y); 
if (sx != sy) 
XP_neg(nbytes, z, x, 1); 
Z[nbytes-1] &= msb; 
if (sx == sy && sign(z)) 
RAISE(MP_Overflow) ; 


(check if signed 


y is too big 


283) 
} else if (apply(MP_mul, z, x, y)) 
RAISE(MP_Overflow) ; 


return Z; 


MP_divi 和 MP_modi 必 须 检 查 除 数 为 0 的 情形 ， 因 为 它们 调用 
XP_quotient 来 计算 商 和 余数 。MP_divi 丢 充 余 数 ， 而 MP_modi 丢 弃 商 : 


(functions 


》 += 
T MP_divi(T z, T x, long y) { 


(checked runtime errors for unary functions 


275) 
if (y == 0) 
RAISE(MP_Dividebyzero) ; 
else if (-BASE < y && y < BASE) { 
int r; 


(zZz - x/y, r- x mod y 


285) 


(check if signed y is too big 


283) 
} else if (apply(MP_div, z, x, y)) 
RAISE(MP_Overflow); 


return Z; 


long MP_modi(T x, long y) { 
assert(x); 
if (y == 0) 
RAISE(MP_Dividebyzero); 
else if (-BASE < y && y < BASE) { 
T z = tmp[2]; 
int r; 


(Zz - x/y, r- x mod y 


285) 


(check if signed y is too big 


283) 
return r; 
} else if (apply(MP_mod, tmp[2], x, y)) 
RAISE(MP_Overflow) ; 


return MP_toint(tmp[2]); 


MP _modi 调 用 MP toint 而 不 是 XP_ toint， 以 确保 符号 的 正确 扩展 。 


MP _divi 和 MP _modi 共 同 使 用 的 代码 块 用 于 计算 商 和 余数 ， 并 且 在 
x 和 y 符 号 不 同 且 余 数 非 零 时 校正 丙 和 余数 。 


(z ~ x/y, r ~ x mod y 


285) = 
int sx = sign(x), sy = y < 0; 


(if x 
< 0, negate x 


278) 
r = XP_quotient(nbytes, z, x, sy ? -y: y); 
if (sx != sy) { 

XP_neg(nbytes, z, z, 1); 

if (r != 0) { 
XP_diff(nbytes, z, z, 1); 
rey -rr; 

} 

Z[nbytes-1] &= msb; 

} else if (sx && sign(z)) 
RAISE(MP_Overflow); 


19.3.5 ”比较 和 逻辑 操作 


无 符号 比较 很 容易 ，MP_cmp 可 以 只 调用 XP_cmp: 


(functions 


270) += 


int MP_cmpu(T x, T y) { 
assert (x); 
assert(y); 


return XP_cmp(nbytes, x, y); 


当 x 和 y 符 号 不 同时 ，MP_cmp(x, y) 只 是 返回 y 和 x 符号 的 六: 


(functions 


270) += 
int MP_cmp(T x, T y) { 


int sx, sy; 


assert(x); 

assert(y); 

sx = Sign(Xx); 

sy = sign(y); 

if (sx != sy) 
return sy - Sx; 

else 


return XP_cmp(nbytes, x, y); 


当 x 和 y 符 号 相同 时 ，MP_cmp 可 以 将 其 当做 无 符号 数 处 理 ， 调 用 


XP_cmp 进 行 比较 。 


进行 比较 操作 的 便捷 函数 无 法 使 用 applyu 和 apply， 因 为 它们 计算 
整数 结果 ， 而 且 不 要 求 其 long 或 unsigned long 操 作 数 一 定 能 够 放 入 到 一 
个 MP_T 实 例 中 。 这 些 函 数 只 是 比较 一 个 MP_T 实 例 与 一 个 立即 数 ， 当 
立即 数 的 值 太 大 时 ， 将 在 比较 的 结果 中 反映 出 来 。 当 unsigned long 的 位 
沉 不 小 于 nbits 时 ，MP_cmpui 将 MP_T 实 例 转换 为 一 个 unsigned long 类 型 
的 值 ， 并 使 用 C 语 言 中 通常 的 比较 运算 符 。 否 则 ， 它 将 立即 数 转 换 为 一 
个 MP_T 实 例 (tmp[2]) ， 并 调用 XP_cmp ° 


(functions 


270) += 
int MP_cmpui(T x, unsigned long y) { 
assert(x); 
if ((int)sizeof y >= nbytes) { 
unsigned long v = XP_toint(nbytes, x); 


(return 
-1, ©, +1, if 
v<y, V=yYy, V> y 286) 
} else { 


XP_fromint(nbytes, tmp[2], y); 


return XP_cmp(nbytes, x, tmp[2]); 


(return 


-1, ©, +1, if 


v<y, V=yYy, v> y 286) = 
if (v < y) 
return -1; 
else if (v > y) 
return 1; 
else 


return 0; 


MP_cmpui 在 调用 XP_fromint 之 后 不 必 检 查 汶 出 ， 因 为 仅 当 y 的 位 宽 小 于 
MP_T 实 例 时 ， 才 会 进行 该 调用 。 


当 x 和 y 符 号 不 同时 ，MP_cmpi 可 以 彻 故 避 人 免 比 较 。 否 则 ， 它 使 用 
MP_cmpui 的 方法 : 如 果 立 即 数 的 位 宽 不 小 于 MP_T 实 例 ， 则 用 C 语 言 比 
较 运 算 符 进行 比较 。 


(functions 


270) += 
int MP_cmpi(T x, long y) { 


int sx, sy = y <0; 


assert(x); 
sx = Sign(x); 
if (sx != sy) 


return sy - SX; 


else if ((int)sizeof y >= nbytes) { 
long v = MP_toint(x); 


(return 
-1, 0, +1, if 


v<y, V=yYy, V> y 286) 
} else { 
MP_fromint(tmp[2], y); 
return XP_cmp(nbytes, x, tmp[2]); 


} 


当 x 和 y 符 号 相同 且 y 的 位 宽 小 于 MP_T 的 位 宽 时 ，MP_cmpi 可 以 安全 地 
将 y 转 换 为 MP_T 实 例 (tmp[2]) ， 然 后 调用 XP_cmp 比 较 x 和 tmp[2] ° 
MP_cmpi 调 用 MP_fromint 而 不 是 XP_fromint， 以 便 正 确 地 处 理 y 为 负 值 


的 情形 。 


二 元 逻辑 函数 MP_and、MP_ or 和 MP _xor 是 最 容易 实现 的 MP 画 
数 ， 因 为 结果 的 每 个 字 节 ， 都 是 操作 数 中 对 应 字 节 按 位 运算 得 出 : 


(macros 


270) += 
#define bitop(op 


) \ 
int i; assert(z); assert(x); assert(y); \ 


for (i = 0; i < nbytes; i++) z[i] = x[i] op 


yli]; \ 


return z 


(functions 


210) += 

T MP_and(T z, T x, T y) { bitop(&); } 
T MP_or (Tz, Tx, T y) { bitop(|); } 
T MP_xor(T z, T x, T y) { bitop(^); } 


MP_not 有 些 古 怪 ， 不 符合 bitop 的 模式 : 


(functions 


270) += 
T MP_not(T z, Tx) { 


int i; 


(checked runtime errors for unary functions 


273) 
for (i = 0; i < nbytes; i++) 
z[i] = ~x[i]; 
z[nbytes-1] &= msb; 


return Z; 


对 这 三 个 实现 逻辑 运算 的 便捷 图 数 来 说 ， 专 门 为 单数 位 操作 效 纺 


写 特 殊 处 理 代 码 难 有 所 获 ， 而 将 立即 操作 数 传递 给 这 些 函 数 并 不 会 导 


致 异常 。applyu 仍 然 可 以 使 用 ， 其 返回 值 只 是 被 忽略 而 已 。 
(macros 
270) += 


#define bitopi(op 


) assert(z); assert(x); \ 


applyu(op 


1 Z, X, y); \ 


return z 


(functions 


270) += 


T 
T 
T 


MP_andi(T z, T x, unsigned long y) { bitopi(MP_and); } 
MP_ori (T z, T x, unsigned long y) { bitopi(MP_or); } 


MP_xori(T z, T x, unsigned long y) { bitopi(MP_xor); } 


三 个 移 位 函数 首 移 确认 已 检查 的 运行 时 错误 ， 然 后 检查 s 是 否 大 于 


等 于 nbits (这 种 情况 下 ， 结 果 的 各 比特 位 为 全 0 或 全 1) ， 最 后 调 
XP_lshift 或 XP_rshift 。XP_ashift 将 空 出 的 比特 位 填充 1， 因 而 实现 了 算 
术 右 移 。 


(macros 


270) += 
#define shft(fill, op 


) \ 


assert(x); assert(z); assert(s >= 0); \ 


if (s >= nbits) memset(z, fill 


, nbytes); \ 


else op 


(nbytes, z, nbytes, x, 


); \ 


s, fill 


z[nbytes-1] &= msb; \ 


return z 


(functions 


270) += 
T MP_lshift(T z, T x, 
T MP_rshift(T z, T x, 


T MP_ashift(T z, T x, 


int s) { shft(0, XP_lshift); } 
int s) { shft(0, XP_rshift); } 
int s) { shft(sign(x),XP_rshift); } 


19.3.6 ”字符 串 转换 


最 后 四 个 函数 负责 字符 扣 与 MP_T 实 例 之 间 的 转换 。MP _ fromstr 类 
似 于 strtoul， 它 将 字符 串 解 释 为 某 个 基数 |2~36 (E) | 下 的 无 符号 
数 。 对 于 大 于 10 的 基数 来 说 ， 字 母 用 于 指定 大 于 9 的 数位 。 


(functions 


270) += 
T MP_fromstr(T z, const char *str, int base, char **end){ 


int carry; 


assert(z); 

memset(z, '\O', nbytes); 

carry = XP_fromstr(nbytes, z, str, base, end); 
carry |= z[nbytes-1]& ~msb; 

Z[nbytes-1] &= msb; 


(test for unsigned overflow 


271) 
return Z; 


} 


XP_fromstr 执 行 转换 ， (如 果 end 不 是 NULL) 并 将 *end 设 置 为 转换 结束 
处 字符 的 地 址 。z 初 始 化 为 0， 因 为 XP_fromstr 会 将 转换 得 到 的 值 加 到 z 
jes 


MP_tostr 执 行 反 回转 换 ， 它 接受 一 个 MP_T 实 例 ， 并 给 出 该 实例 的 
值 在 某 个 基数 (2 到 36 之 间 ， 含 ) 下 的 字符 串 表 示 。 


(functions 


270) += 
char *MP_tostr(char *str, int size, int base, T x) { 
assert(x); 
assert(base >= 2 && base <= 36); 
assert(str == NULL || size > 1); 
if (str == NULL) { 


(size ~ number of characters to represent x in 


base 289) 
str = ALLOC(size); 
} 
memcpy(tmp[1], x, nbytes); 
XP_tostr(str, size, base, nbytes, tmp[1]); 


return str; 


如 果 str 是 NULL，MP_tostr 分 配 一 个 足够 长 的 字符 串 ， 以 容纳 x 在 base 基 

a ee 。 MP _tostr 使 用 AP_tostr 的 技巧 来 计算 该 字符 串 的 长 度 : str 
必须 至 少 有 | nbits 人 | 个 字符 ， 其 中 k 的 选择 ， 要 使 得 在 2 的 各 个 央 次 

中 ， 和 是 小 于 等 于 base 的 最 大 需 次 ， 另 外 还 有 加 上 结尾 的 一 个 0 字符 。 


(size ~ number of characters to represent x in 


base 289) = 
{ 


int k; 
for (k = 5; (1<<k) > base; k--) 


size = nbits/k + 1 + 1; 


FEmt 风 格 的 转换 函数 格式 化 一 个 无 符号 或 有 符号 的 MP_T 实 例 。 

个 转换 画 数 消耗 两 个 参数 :一 个 MP_T 实 例 ， 和 一 个 基数 值 [2~36 

( 含 ) | 。MP_fmtu 调 用 MP_tostr 来 转换 MP_T 实 例 ， 并 调用 Fmt_putd 

来 输出 转换 的 结果 。 回 忆 前 文 可 知 ，Fmt_putd 以 printf 的 %d 转 换 限 定 符 
的 风格 来 输出 一 个 数字 。 


(functions 


270) += 

void MP_fmtu(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
T-X; 


char *buf; 


assert(app && flags); 

x = va_arg(*app, T); 

assert(x); 

buf = MP_tostr(NULL, ©, va_arg(*app, int), x); 
Fmt_putd(buf, strlen(buf), put, cl, flags, 


width, precision); 


FREE(buf); 


MP_fmt 要 做 的 工作 稍 多 一 点 ， 因 为 它 将 一 个 MP_T 解 释 为 一 个 有 
符号 数 ， 但 MP tostr 只 接受 无 符号 MP _T 实 例 。 因 而 ，MP _fmt 本 号 会 分 
配 缓冲 区 ， 必 要 时 会 先 在 缕 冲 区 中 预 置 一 个 符号 。 


(functions 


270) += 
void MP_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[], int width, int precision) { 
T X; 
int base, size, sx; 


char *buf; 


assert(app && flags); 

x = va_arg(*app, T); 

assert(x); 

base = va_arg(*app, int); 
assert(base >= 2 && base <= 36); 
sx = Sign(x); 


(if x 


< 0, negate x 


278) 


(size ~ number of characters to represent x in 


base 289) 
buf = ALLOC(size+1); 
if (sx) 4 
buf[0] = '-'; 
MP_tostr(buf + 1, size, base, x); 
} else 
MP_tostr(buf, size + 1, base, x); 
Fmt_putd(buf, strlen(buf), put, cl, flags, 
width, precision); 


FREE(buf); 


19.4 扩展 阅读 


多 精度 算术 通常 在 编译 器 中 使 用 ， 有 了 时 它 是 必须 使 用 的 。 例 如 ， 
[Clinger，1990] 指 出 ， 将 浮 点 字面 值 转换 为 对 应 的 IEEE 浮 点 表示 ， 在 某 
些 情 况 下 需要 多 精度 算术 才能 实现 最 佳 的 精确 度 。 


[Schneier，1996] 是 一 份 密码 学 方面 的 综述 。 该 书 很 实用 ， 还 对 一 
些 描述 的 算法 包括 了 C 语 言 实 现 。 该 书 还 有 很 广泛 的 参考 数目 ， 这 是 深 
入 研究 的 良好 起 点 。 


如 17.2.2 节 所 示 ， 两 个 n 数 位 数 的 乘积 ， 所 花费 的 时 间 与 成正 
比 。[Press 等 人 ，1992] 的 20.6 市 说 明 ， 可 使 用 快速 信里 叶 变 换 来 实现 科 


法 ， 其 花费 的 时 间 与 n lgn lglgn 成 正比 。 该 书 还 通过 计算 倒数 1/y 并 将 其 
乘 以 x， 从 而 实现 了 x/y。 这 种 方法 需要 文 持 小 数 部 分 的 多 精度 数 。 


19.5 “习题 


19.1 当 nbits 征 8 的 倍数 时 ，MP 接 口 图 数 执行 了 大 量 不 必要 的 工 
作 。 读 者 是 否 可 以 修订 MP 接口 的 实现 ， 使 得 在 nbits mod 8=0 时 ， 能 够 
避免 这 些 不 必要 的 工作 ? 实现 你 的 方案 并 测量 其 好 处 或 成 本 。 


19.2 ”对 于 许多 应 用 程序 来 说 ， 一 且 选 定 nbits， 就 不 会 变更 。 实 现 
一 个 代码 生成 姻 ， 对 给 定 的 nbits 值 ， 生 成 一 个 接口 和 实现 MP_nbits ， 
文 持 位 宽 nbits 的 算术 运算 ， 其 他 方面 二 MP 接口 相同 。 


19.3 ”设计 并 实现 一 个 接口 ， 支 持 定点 、 多 精度 数 的 算术 运算 ， 这 
种 数 包含 一 个 整数 部 分 和 一 个 小 数 部 分 。 客 户 程 序 应 该 能 指定 这 两 部 
分 中 数位 的 数目 。 务 必 规 定 舍 入 规则 的 细 市 。[Press 等 人 ，1992] 的 20.6 
节 包 含 了 可 用 于 本 习题 的 一 些 有 用 算法 。 


19.4 ”设计 并 实现 一 个 接口 ， 支 持 浮 点 数 的 算术 运算 ， 客 户 程序 可 
以 指定 指数 和 尾数 部 分 的 比特 位 数目 。 在 尝试 本 习题 之 前 ， 请 阅读 
[Goldberg, 1991] ° 


19.5 XPAIMPHO FAY RAF MEA constó MA, RAE 
在 17.1 广 中 详 述 。 但 是 ， 可 以 用 其 他 方式 定义 XP_T 和 MP_T， 使 之 可 以 
与 const 下 确 地 协作 。 例 如 ， 如 果 以 下 壕 方式 定义 T 


typedef unsigned char T[]; 


那么 const T 的 语义 就 表示 “常量 无 符号 字符 的 数组 *"， 继 而 可 用 于 函数 参 
数 ， 例 如 MP_add 可 以 声明 如 下 : 


unsigned char *MP_add(T z, const T x, const T y); 


在 MP_add 中 ，x 和 y 的 类 型 是 “ 指 同 常量 无 符号 字符 的 指针 ”， 因 为 形 参 
中 的 数组 类 型 会 < 衰变 ”为 对 应 的 指针 类 型 。 当 然 ，const 无 法 阻止 偶发 
的 别名 混用 ， 因 为 ， 同 一 数组 可 能 同时 传递 给 z 和 x。MP_add 的 这 种 声 
明 形 式 ， 说 明了 将 T 定 义 为 数组 类 型 的 不 利之 处 : TI 无 法 用 作 返 回 类 
型 ， 客 户 程序 无 法 声明 类 型 为 T 的 变量 。 这 种 数组 类 型 只 对 参数 有 用 。 
通过 将 IT 定义 为 unsigned char 的 typedef， 可 以 避免 该 问题 : 


typedef unsigned char T; 


使 用 T 的 这 种 定义 ，MP_add 可 以 声明 为 下 述 两 种 形式 : 


T *MP_add(T z[], const T x[], const T y[]); 
T *MP_add(T *z, T *x, T *y); 


使 用 T 的 这 两 种 定义 ， 重 新 实现 XP 及 其 客户 程序 、AP、MP、calc 和 
mpcalc。 比 较 修 改 后 程序 与 原始 程序 的 易 读 性 。 


[1] 原文 为 比特 位 mm， 实 际 上 对 mm 位 有 符号 整数 来 说 ， 比 特 位 m-1 十 
1 AL ° 译 者 注 


[2] m 改 为 m-1。 译 者 注 


[3] 将 ones(m) 右 移 一 位 ， 使 得 carry 的 初始 值 可 以 包含 比特 位 m-1。 
一 一 译 者 注 


[4] 代码 中 原本 把 符号 位 也 忽略 了 ， 已 更 正 。 一 一 译 者 注 


第 20 章 ”线程 


典型 的 C 程 序 是 顺序 的 ， 或 者 说 是 单线 程 程序 。 即 ， 程 序 中 只 
一 个 控制 流 。 在 执行 时 ， 程 序 的 指令 计数 器 (location counter) 给 出 所 
执行 的 每 条 指令 的 地 址 。 大 多 数 时 间 ， 指 令 计数 僚 给 出 的 地 址 顺序 前 
移 ， 每 次 移动 一 个 指令 。 偶 而 ， 跳 转 或 调用 指令 会 导致 指令 计数 硕 变 
更 为 跳 转 目标 地 址 或 所 调用 函数 的 地 址 。 指 令 计 数 右 的 值 描绘 出 了 一 
条 罕 越 程序 的 路 径 ， 该 路 径 描述 了 程序 的 执行 ， 看 起 来 像 是 容 过 程序 
BO 下 


一 个 并 发 或 多 线程 程序 有 一 个 以 上 的 线程 ， 而 且 在 大 多 数 情况 
下 ， 这 些 线程 至 少 在 概念 上 是 同时 执行 的 。 这 种 并 发 执行 ， 使 得 编写 
多 线程 应 用 程序 比 编写 单线 程 应 用 程序 要 复杂 得 多 ， 因 为 线程 间 可 能 
以 不 确定 的 方式 彼此 交互 。 本 章 中 的 三 个 接口 导出 了 一 些 函 数 ， 可 用 
于 创建 和 管理 线程 、 同 步 多 个 协作 线程 的 操作 、 在 线程 间 通 信 。 


线程 对 具有 内 在 并 发 活动 的 应 用 程序 很 有 用 。 图 形 用 户 界 面 是 个 
首要 的 例子 ， 键 弄 输 入、 鼠标 移动 和 点 击 、 显 示 输 出 ， 所 有 这 些 活 动 
都 是 同时 发 生 的 。 在 多 线程 系统 中 ， 可 以 为 每 个 活动 分 别 分 配 一 个 专 
用 线程 ， 无 需 考虑 其 他 活动 。 这 种 方法 有 助 于 简化 用 户 界 面 的 实现 ， 
因为 对 这 些 线程 中 的 每 一 个 来 说 ， 除 了 少数 必须 与 其 他 线程 通信 /同步 
的 场合 之 外 ， 都 可 以 像 顺序 程序 那样 来 设计 和 编写 这 些 线程 。 


在 多 处 理事 计算 机 上 ， 如 果 应 用 程序 可 以 目 然 地 分 解 为 相对 独立 
的 子 任 务 ， 那 么 使 用 线程 可 以 提高 性 能 。 每 个 子 任务 在 一 个 单独 的 线 


程 中 运行 ， 所 有 子 任务 线程 都 并 发 地 运行 ， 因 而 比 顺序 执行 各 个 子 任 
务 要 快速 。20.2 节 描述 了 一 个 使 用 这 种 方法 的 排序 程序 。 


因为 线程 有 状态 ， 它 们 还 可 以 帮助 组 织 顺序 程序 的 结构 :线程 包 
舍 足 够 的 关联 信息 ， 使 之 可 以 停止 执行 ， 而 后 在 停止 处 重新 恢复 执 
行 。 例 如 ， 典 型 的 UNIX C 语 言 编译 恬 由 三 部 分 组 成 : 一 个 单独 的 预 处 
理 右 、 一 个 专属 的 编译 夯 和 一 个 汇编 磺 。 预 处 理 俗 读 取 源 代码 ， 将 头 
文件 包含 进来 ， 并 展开 宏 ， 最 后 输出 结果 源 人 代码， 编译 侣 读 取 并 解析 
展开 的 产 代 码 ， 生 成 代码 并 输出 汇编 语言 ， 而 汇编 器 读 取 汇编 语言 
输出 目标 码 。 这 些 阶 段 通 音 通过 读 写 临时 文件 来 彼此 通讯 。 利 用 线 
程 ， 每 个 阶段 都 可 以 作为 单独 的 应 用 程序 中 的 一 个 独立 的 线程 来 运 
行 ， 这 样式 消除 了 临时 文件 ， 以 及 读 、 写 、 删 除 临 时 文件 的 开销 。 编 
译 器 本 身 也 可 能 对 词法 分 析 器 和 语法 解析 器 分 别 使 用 单独 的 线程 。 
20.2 玫 以 计算 素数 为 例 ， 说 明了 在 流水 线 中 使 用 线程 的 这 种 用 法 。 


一 些 系统 并 不 是 为 多 线程 应 用 程序 设计 的 ， 这 限制 了 线程 的 用 
处 。 例 如 ， 大 多 数 UNIX 系 统 使 用 的 是 阻 蹇 IO 原 语 。 即 当 一 个 线程 发 
出 一 个 读 请 求 时 ， 该 线程 所 属 的 UNIX 进 程 以 及 进程 中 所 有 的 线程 都 会 
阻塞 ， 以 等 待 该 请 求 完成 。 在 这 些 系 统 上 ， 线 程 无 法 将 计算 与 JO 进 行 
重生 。 对 于 信号 处 理 ， 也 有 类 似 的 结论 。 大 多 数 UNIX 系 统 将 信号 和 信 
号 处 理 程序 关联 到 进程 ， 而 不 是 进程 中 的 各 个 线程 。 


线程 系统 文 持 用 户 级 线程 或 内 核 级 线程 ， 也 可 能 二 者 均 支 持 。 用 
户 级 线程 是 完全 在 用 户 状态 实现 的 ， 无 需 操 作 系统 的 帮助 。 用 户 级 线 
程 软件 包 ， 通 第 有 一 些 如 上 文 所 述 的 缺点 。 从 正面 来 说 ， 用 户 级 线程 
可 以 非常 高 效 。 下 一 市 描述 的 Thread 接 口 提供 了 用 户 级 线程 。 


内 核 级 线程 使 用 了 操作 系统 设施 ， 以 提供 诸如 非 阻 蹇 TO 和 线程 化 
信号 处 理 之 类 (per-thread signal handling) 的 特性 。 较 新 的 操作 系统 
内 核 级 线程 支持 ， 可 以 用 于 提供 线程 接口 。 但 这 些 接 口中 的 一 些 操 作 
需要 系统 调用 ， 通 常 比 用 户 级 线程 中 的 类 似 操 作 要 花费 更 多 代价 。 


即使 在 提供 内 核 级 线程 的 系统 上 ， 标 准 库 仍 然 可 能 不 是 可 重 入 的 
或 线程 安全 的 。 可 重 入 的 函数 只 修改 局 部 变量 和 人 参数。 改变 全 局 变量 
或 使 用 静态 变量 来 保存 中 间 结 采 的 函数 是 不 可 重 入 的 。 标 准 C 库 中 一 
些 函 数 的 典型 实现 是 不 可 重 入 的 。 如 琳 不 可 重 入 的 函数 同时 被 多 次 调 
用 出 ， 画 数 可 能 以 不 可 预测 的 方式 修改 这 些 中 间 值 。 在 单线 程 程序 
中 ， 多 次 调用 同时 存在 ， 可 能 是 因为 直接 和 间接 递归 。 在 多 线程 程序 
中 ， 出 现 多 次 调用 ， 是 因为 不 同 线 程 可 能 同时 调用 同一 函数 。 两 个 线 
程 同时 调用 一 个 不 可 重 入 的 函数 ， 将 修改 同一 存储 区 ， 其 结 采 是 未 定 
SUEY ° 


线程 安全 的 函数 使 用 同步 机 制 来 管理 对 共享 数据 的 访问 ， 因 而 有 
可 能 是 可 重 入 的 或 不 可 重 入 的 。 线 程 安全 的 函数 可 能 被 多 个 线程 同时 
调用 ， 而 无 需 担忧 同步 问题 。 这 使 得 多 线程 客户 程序 更 容易 使 用 它 
们 ， 但 其 缺点 是 ， 即 使 单线 程 客户 程序 也 需要 为 同步 付出 代价 。 


标准 C 语 言 并 不 要 求 库 函 数 是 可 重 入 的 或 线程 安全 的 ， 因 此 程序 
员 必 须 作 出 最 坏 假定 ， 使 用 同步 原 语 来 确保 在 任 一 时 刻 只 有 一 个 线程 
能 访问 某 个 不 可 重 入 的 库 函 数 。 


本 书 中 大 部 分 函数 都 不 是 线程 安全 的 ， 但 是 它们 可 重 入 的 。 人 少量 
函数 是 不 可 重 入 的 ， 如 Text_map ， 多 线程 客户 程序 必须 目 行 解决 同步 
问题 。 例 如 ， 如 果 几 个 线程 共 圣 一 个 Table_T 实 例 ， 它 们 必须 确保 任 一 


时 刻 只 有 一 个 线程 能 够 对 该 Table_T 实 例 调用 Table 接 口中 的 画 数 ， 如 下 
SC Tit ° 


一 些 线程 接口 是 同时 为 用 户 级 和 内 核 级 线程 设计 的 。OSF (Open 
Software Foundation ， 开 放 软 件 基 金 会 ) 的 DCE (Distributed 
Computing Environment， 分 布 式 计算 环境 ) ， 在 大 多 数 UNIX 变 体 、 
Open-VMS ` OS/2 ` Windows NT 和 Windows 95 上 ， 都 是 可 用 的 。 通 
常 ， 在 答 主 操作 系统 文 持 内 核 级 线程 的 情况 下 ，DCE 线 程 使 用 内 核 级 
线程 ， 否 则 ，DCE 线 程 实现 为 用 户 级 线程 。DCE 线 程 接口 包括 50 多 个 
函数 ， 比 本 革 中 三 个 接口 合 起 来 都 大 得 多 ， 但 DCE 授 口 能 完成 的 功能 
更 多 。 例 如 ， 其 实现 文 持 线 程 级 信号 ， 并 通过 适当 的 同步 机 制 保护 了 
对 标准 库 函 数 的 调用 。 


Sun 公 司 (Sun Microsystems) 的 Solaris 2 操作 系统 提供 了 一 种 二 级 
线程 设施 。 内 核 级 线程 称 作 轻 量 级 线程 (lightweight process) ， 或 
LWP。UNIX 的 每 个 “重量 级 ”进程 都 至 少 包含 一 个 LWP，Solaris 通 过 运 
行进 程 中 的 一 个 或 多 个 LWP， 来 运行 一 个 UNIX 进 程 。 对 LWP 的 内 核 
文 持 包括 非 阻塞 TO 和 LWP 级 别 的 信号 。 用 户 级 线程 通过 类 似 Thread 的 
一 个 接口 提供 ， 但 比 Thread 要 大 一 些 ， 其 实现 在 LWP 之 上 运行 用 户 级 
线程 。 一 个 LWP 可 以 服务 一 个 或 多 个 用 户 级 线程 。Solaris 在 LWP 之 间 
复 用 处 理 器 ， 而 LWP 本 喘 则 在 用 户 级 线程 之 间 复 用 。 


POSIX (Portable Operating Systems Interface， 可 移植 操作 系统 接 
O) 线程 接口 简称 pthreads， 它 是 作为 指引 性 的 标准 线程 接口 出 现 的 。 
大 多 数 厂 商 现 在 都 提供 了 pthreads 实 现 ， 或 许 是 基于 他 们 自己 的 线程 接 
口 。 例 如 ，Sun 公 司 使 用 Solaris 2 的 LWP 来 实现 pthreads。pthreads 的 功 
能 是 Thread 和 和 Sem 接口 导出 功能 的 一 个 超 集 。 较 大 的 POSIX 线 程 接 口 处 


理 了 线程 级 信号 ， 包 括 儿 种 同步 机 制 ， 并 规定 标准 C 库 函数 必须 是 线 
程 安全 的 。 


20.1 接口 


本 章 中 的 三 个 接口 都 比较 小 。 之 所 以 将 其 划分 为 独立 的 接口 ， 十 
因为 其 中 每 个 接口 都 有 一 个 彼此 相关 但 截然 不 同 的 目的 。 


理论 上 ， 所 有 的 运行 线程 都 是 并 发 执行 的 ， 但 实际 上 ， 线 程 数目 
通常 大 于 真实 的 处 理 器 数目 。 因 而 ， 处 理 器 是 根据 某 种 调度 策略 在 运 
行 线程 之 间 复 用 的 。 在 非 抢 占 调度 (nonpreemptive scheduling) 的 情 
况 下 ， 运 行 线程 可 以 执行 一 个 函数 ， 使 之 变 为 阻塞 状态 ， 或 放弃 当前 
占用 的 处 理 器 。 在 启用 抢占 调度 (preemptive scheduling) 时 ， 运 行 线 
程 将 隐 式 放弃 占用 的 处 理 器 。 该 策略 通常 利用 时 钟 中 断 实 现 ， 时 钟 中 
断 将 周期 性 地 中 断 运 行 线程 ， 并 将 其 处 理 器 分 配给 其 他 运行 线程 。 时 
间 片 是 运行 线程 在 被 抢占 之 前 所 运行 时 间 的 数量 ， 当 被 抢占 时 ， 上 下 
文 切 换 将 挂 起 当前 线程 并 恢复 另 一 个 (或 许 是 同一 个 ) 运行 线程 。 在 
非 抢 占 调 度 的 情况 下 ， 当 运行 线程 阻塞 时 ， 也 会 发 生 上 下 文 切 换 。 在 
接口 实现 支持 抢占 的 情况 下 ，Thread 接 口 将 使 用 抢占 调度 机 制 。 


原子 操作 (atomic action) 的 执行 不 会 被 抢占 。 开 始 执行 一 个 原 
子 操 作 的 线程 ， 在 完成 该 操作 前 ， 不 会 被 另 一 个 线程 打 断 。 如 果 线 程 
调用 了 一 个 原子 函数 ， 该 调用 的 执行 不 会 被 打 断 。 本 章 中 描述 的 大 多 
数 函 数 都 必须 是 原子 的 ， 这 样 才能 使 其 结果 和 作用 具有 可 预测 性 。 但 
原子 范 数 是 可 以 阻塞 的 ，Sem 接 口中 的 同步 画 数 就 是 这 样 的 例子 。 


前 两 段 的 内 容 表明 ， 并 发 程序 设计 有 上 自 坪 的 一 些 术 语 ， 而 且 经 常 

用 不 同 术 语 表 示 同 一 概念 。 例 如 ， 线 程 可 能 叫做 轻 量 级 线程 、 任 务 

(task) 、 子 任务 (subtask) 、 或 微 任务 (microtask) ， 同 步 机 制 可 

能 称 为 事件 (event) 、 条 件 变 量 (condition variable) 、 同 步 资 源 
( 


(synchronizing resource) 和 消息 (message) ° 
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(thread.h 


》 三 
#ifndef THREAD INCLUDED 
#define THREAD INCLUDED 


#include "except.h" 


#define T Thread_T 


typedef struct T *T; 


extern const Except_T Thread_Failed; 


extern const Except_T Thread_Alerted; 


extern int Thread_init (int preempt, ...); 
extern T Thread_new (int apply(void *), 


void *args, int nbytes, ...); 


extern void Thread_exit (int code); 
extern void Thread_alert(T t); 
extern T Thread_self (void); 
extern int Thread_join (T t); 


extern void Thread_pause(void); 


#undef T 


#endif 
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Thread_init 初 始 化 线程 系统 ， 必 须 在 调用 任何 其 他 函数 之 前 调 
用 。 调 用 Thread init 多 次 ， 或 在 调用 Thread init 之 前 调用 Thread、Sem 
和 Chan 接 口中 任何 其 他 函数 ， 都 会 造成 已 检查 的 运行 时 错误 。 


如 采 preempt 为 0，Thread_init 将 线程 系统 初始 化 为 只 支持 非 抢占 调 
度 ， 并 返回 1。 如果 preempt 为 1， 线 程 系 统 将 初始 化 为 支持 抢占 调度 。 
如 果 系 统 支持 抢占 调度 ，Thread_init 将 返回 1°。 否则 ， 系 统 将 初始 化 为 
韭 抢占 调度 ，Thread_init 返 回 0。 


通常 的 客户 程序 在 main 函 数 中 初始 化 线程 系统 。 例 如 ， 对 于 需要 
抢占 调度 的 客户 程序 来 说 ，main 函 数 通常 为 如 下 形式 。 


int main(int argc, char *argv[]) { 


int preempt; 


preempt = Thread_init(1, NULL); 


assert(preempt == 1); 


Thread_exit(EXIT_SUCCESS); 
return EXIT_SUCCESS; 


Thread_init 还 可 以 接受 与 实现 相关 的 额外 参数 ， 通 常 以 “名 称 一 
值 ” 对 的 形式 指定 。 例 如 ， 对 于 支持 优先 级 的 实现 来 说 ， 


preempt = Thread_init(1, "priorities", 4, NULL); 


可 以 将 线程 系统 初始 化 为 具有 四 个 优先 级 。 通 音 忽 略 未 知 的 可 选 参 
数 。 使 用 这 种 方法 的 实现 ， 通 和 要 求 用 NULL 指 针 作 为 结束 参数 。 


如 上 述 的 代码 模板 所 示 ， 线 程 必 须 通过 调用 Thread_exit 结 束 执 
行 。 整 型 参数 是 一 个 退出 代码 ， 很 像 是 传递 给 标准 库 的 exit 函 数 的 参 
数 。 如 果 有 其 他 线程 在 等 待 调用 该 贸 数 的 线程 结束 ， 那 么 这 些 线程 会 
得 到 该 退出 代码 ， 下 文 将 解释 这 一 点 。 如果 系统 中 只 有 一 个 线程 ， 调 
用 Thread_exit 等 效 于 调用 exit ° 


Thread_new 创 建 了 一 个 新 线程 并 返回 其 线程 句柄 ， 这 是 一 个 不 透 
明 指 针 。 线 程 句柄 将 会 传递 给 Thread join Fi Thread_alert Ej 2X , 
Thread_self 会 返回 线程 句柄 。 新 线程 的 运行 独立 于 创建 它 的 线程 。 在 
新 线程 开始 执行 时 ， 它 会 执行 等 效 于 下 述 形 式 的 代码 ; 


void *p = ALLOC(Cnbytes ) ; 
memcpy(p, args, nbytes); 


Thread_exit(apply(p)); 


即 会 针对 args 指 问 的 nbytes 字 广 的 一 个 副本 ， 来 调用 apply， 系 统 假定 
args 指 向 新 线程 的 参数 数据 。args 通 常 是 指向 一 个 结构 实例 的 指针 ， 结 
构 的 字段 保存 了 apply 的 参数 ，nbytes 是 该 结构 的 长 度 。 新 线程 开始 执 
TIN, FRASER ANZ: 它 并 不 继承 调用 线程 中 通过 TRY-EXCEPT 语 句 建 
立 的 异常 状态 。 异 常 是 特定 于 线程 的 ， 在 一 个 线程 中 执行 的 TRY- 
EXCEPT 语 句 无 法 影响 男 一 个 线程 中 的 异常 。 


如 果 args 不 是 NULL， 而 nbytes 为 0， 新 线程 将 执行 下 述 代 码 的 等 价 
形式 : 


Thread_exit(apply(args)); 


即 会 不 加 修改 地 将 args 传 递 给 apply。 如 果 args 是 NULL ， 新 线程 执行 下 
述 代 码 的 等 价 形 式 : 


Thread_exit(apply(NULL) ); 


如 果 apply 是 NULL ， 或 args 不 是 NULEL 且 nbytes 为 负 值 ， 则 造成 已 检查 
的 运行 时 错误 。 如 果 args 是 NULL， 则 忽略 nbytes。 


类 似 于 Thread_init，Thread_new 也 可 以 有 特定 于 实现 的 额外 参 
数 ， 通 党 以 “名 称 一 值 ? 对 的 形式 指定 。 例 如 : 


Thread_T t; 


t = Thread_new(apply, args, nbytes, "priority", 2, NULL); 


上 述 代 码 创建 了 一 个 优先 级 为 2 的 新 线程 。 如 本 例 所 示 ， 可 选 参数 (的 
列表 ) 应 该 以 NULL 指 针 结束 。 


线程 的 创建 是 同步 的 : 在 新 线程 已 经 创建 并 接收 其 参数 之 后 ， 
Thread_new 将 返回 ， 但 此 时 新 线程 可 能 并 未 开始 执行 。 如 果 
Thread_new 因 为 资源 限制 无 法 创建 新 线程 ， 则 引发 Thread_Failed 异 
常 。 例 如 ， 线 程 系 统 的 实现 可 能 会 限制 同时 存在 的 线程 数目 ， 在 超出 
该 限制 时 ，Thread_new 将 引发 Thread_Failed 异 常 。 


线程 调用 Thread_exit(code) 芳 数 后 ， 将 结束 该 线程 的 执行 。 此 后 ， 
(借助 于 Thread_join) 等 待 该 线程 结束 的 线程 将 恢复 执行 ，code 的 值 
将 作为 调用 Thread_join 的 结果 返回 给 这 些 恢复 执行 的 线程 。 在 最 后 一 
个 线程 调用 Thread_exit 时 ， 整 个 程序 通过 调用 exit(code) 结 束 。 


Thread_join(t) 导致 调用 线程 暂停 执行 ， 直 至 线程 t+ 通过 调用 
Thread_exit 结 束 。 在 线程 { 结 束 时 ， 调 用 Thread_ join 的 线程 将 恢复 技 
行 ，Thread_ join 将 返回 线程 t 传 递 给 Thread_exit 的 整 型 参数 。 如 果 {t 指 定 
了 一 个 不 存在 的 线程 ，Thread_join 立 即 返 回 -1。 作 为 一 个 特例 ， 调 用 
Thread_join(NULL) 将 等 每 所 有 线程 结束 ， 包 括 那些 可 能 由 其 他 线程 创 
建 的 线程 。 在 这 种 情况 下 ，Thread_join 将 返回 0。 如 果 用 非 NULEL 的 {t 指 
定 调 用 Thread_join 的 线程 本 身 ， 或 有 多 个 线程 指定 的 t 值 为 NULL M 
造成 已 检查 的 运行 时 错误 。Thread_join 可 能 引发 Thread_Alerted 异 常 。 


Thread_self 返 回调 用 线程 的 线程 句柄 。 


Thread_pause 导 致 调用 线程 放弃 处 理 器 ， 使 得 另 一 个 丈 线 线程 
(如 果 有 的 话 ) 可 以 在 该 处 理 器 上 执行 。Thread_pause 主 要 用 于 非 抢 
占 调度 ， 对 于 抢占 调度 ， 没 有 必要 调用 Thread_pause 。 


线程 有 三 种 状态 : 运行、 阻 守 和 死亡 。 新 线程 开始 时 为 运行 状 
态 。 如 采 它 调用 了 Thread join， 则 变 为 阻塞 状态 ， 等 竺 另 一 个 线程 结 


束 执 行 。 当 一 个 线程 调用 Thread exit 时 ， 它 变 为 死亡 状态 。 当 线程 调 
用 由 Chan 导 出 的 通讯 玉 数 或 Sem 导 出 的 同步 男 数 时 ， 也 可 能 变 为 胆 塞 
状态 。 如 果 没 有 运行 线程 ， 则 为 已 检查 的 运行 时 错误 。 


Thread_alert(t) 将 设置 的 “警报 一 繁 决 ”标志 。 如 有 果 t 阻 塞 ， 
Thread_alert 将 使 t 变 为 可 运行 ， 并 使 之 清除 其 警报 一 待 决 标志 ， 并 在 下 
一 次 运行 时 引发 Thread_Alerted 异 常 。 如 果 t 已 经 是 运行 状态 ， 
Thread_alert 将 使 清除 其 标志 并 在 下 一 次 调用 Thread_join 或 可 以 导致 阻 
塞 通信 或 同步 函数 时 引发 Thread_Alerted 异 常 。 如 果 传 递 给 Thread_alert 
的 线程 句柄 为 NULL， 或 指 癌 一 个 不 存在 的 线程 ， 则 造成 已 检查 的 运 
行 时 错误 。 


无 法 结束 一 个 正在 运行 的 线程 ， 线 程 必须 结束 本 身 ， 或 者 通过 调 
用 Thread_exit， 或 者 通过 啊 应 Thread_Alerted。 如 果 一 个 线程 并 不 捕获 
Thread_Alerted 寞 毅 ， 整 个 程序 将 由 于 未 捕获 的 异常 错误 而 结束 。 啊 应 
Thread_alert 异 常 最 常见 的 方式 是 结束 线程 ， 这 可 以 通过 下 述 一 般 形 式 
的 apply 函 数 完 成 $ 


int apply(void *p) { 
TRY 


EXCEPT (Thread_Alerted) 
Thread_exit(EXIT_FAILURE); 
END_TRY; 
Thread_exit(EXIT_SUCCESS) ， 
} 


TRY-EXCEPT 语 句 必 须 由 线程 本 身 执行 。 如 下 的 代码 


Thread_T t; 
TRY 
t = Thread_new(...); 
EXCEPT (Thread_Alerted) 
Thread_exit (EXIT_FAILURE); 
END_TRY; 
Thread_exit(EXIT_SUCCESS) ， 


是 不 正确 的 ， 因 为 其 中 的 TRY-EXCEPT 应 用 到 调用 线程 ， 而 非 新 线 
程 。 


20.1.2 一 般 信 号 量 


一 般 信号 量 ， 或 计数 信号 量 ， 是 底层 同步 原 语 。 理 论 上 ， 信 和 号 量 

是 一 个 受 保护 的 整数 ， 可 以 原子 化 地 加 1 和 减 1。 可 以 对 一 个 信号 量 s 进 

行 的 两 个 操作 是 wait 和 signal 。signal(s) 在 逻辑 上 相当 于 将 s 原 子 化 地 加 
1。wait(s) 等 得 s 变 为 正 数 ， 然 后 将 其 原子 化 地 减 1: 


while (s <= 0) 


s=s - 1; 


当然 ， 实 际 的 实现 会 导致 调用 线程 阻塞 ， 并 不 像 上 述 解 释 那 样 进行 循 
环 。 


Sem 接 口 将 计数 需 封 又 在 一 个 结构 中 ， 导 出 一 个 初始 化 函数 和 两 
个 同步 函数 : 


#ifndef SEM_INCLUDED 


#define SEM_INCLUDED 


#define T Sem_T 
typedef struct T { 
int count; 

void *queue; 


+ T; 


(exported macros 


300) 


extern void Sem_init (T *s, int count); 
extern T *Sem_new (int count); 
extern void Sem wait (T *s); 


extern void Sem_signal(T *s); 


#undef T 


#endif 


一 个 信号 量 ， 就 是 指向 一 个 Sem_T 结 构 实 例 的 指针 。 该 接口 揭示 了 
Sem_T 实 例 的 内 部 结构 ， 但 只 有 这 样 ， 才 能 静态 分 配 Sem_T 实 例 ， 或 
将 其 租 入 到 其 他 结构 中 。 客 户 程 序 必须 将 Sem_T 作 为 不 透明 类 型 处 


理 ， 只 能 通过 该 接口 中 的 函数 存 取 Sem_T 实 例 中 的 字段 ， 直 接 访 问 
Sem_T 的 字段 ， 属 于 未 检查 的 运行 时 错误 。 向 该 接口 中 任何 函数 传递 
的 Sem_T 指 针 为 NULL， 痢 是 已 检查 的 运行 时 错误 。 


Sem_init 的 参数 包括 指向 一 个 Sem_T 实 例 的 指针 ， 和 计数 器 的 初始 
值 ， 该 函数 接 下 来 初始 化 信号 量 的 数据 结构 并 将 其 计数 器 设置 为 指定 
的 初始 值 。 在 初始 化 后 ， 指 向 该 Sem_T 的 指针 即 可 传递 给 两 个 同步 画 
数 。 在 同一 信号 量 上 调用 Sem_init 多 次 ， 属 于 未 检查 的 运行 时 错误 。 


Sem_new 等 效 于 下 述 代 码 的 原子 形式 : 


Sem_T *s; 
NEW(s); 


Sem_init(s, count); 
Sem_new 可 能 3 引发 Mem_Failed 异 常 。 


Sem_wait 接 受 一 个 指 癌 Sem_T 实 例 的 指针 作为 参数 ， 并 等 待 其 计 
数 絮 变 为 正 数 ， 而 后 将 其 计数 絮 减 1 并 返回 。 该 探 作 是 原子 的 。 如 果 调 
用 线程 的 警报 一 待 决 标志 已 经 设置 ，Sem wait 将 立即 引发 
Thread_Alerted 异 疝 ， 而 不 会 将 计数 器 减 1。 如 果 警 报 一 待 决 标志 是 在 
线程 阻塞 期 间 设 置 的 ， 那 么 该 线程 将 停止 等 竺 并 引发 Thread_Alerted 异 
常 ， 而 不 会 将 计数 器 减 1。 在 调用 Thread_init 之 前 调用 Sem_wait， 是 已 
检查 的 运行 时 错误 。 


Sem_signal 接 受 一 个 指向 Sem_T 实 例 的 指针 作为 参数 ， 并 将 Sem_T 
中 的 计数 器 原 子 化 地 加 1。 如 果 有 其 他 线程 在 等 待 计数 器 变 为 正 数 ， 而 
Sem_signal 探 作 刚好 使 计数 颖 变 为 正 数 ， 那 么 其 中 某 个 线程 将 完成 对 


Sem wait 的 调用 。 在 调用 Thread init 之 前 调用 Sem wait， 是 已 检查 的 
运行 时 错误 。 


问 Sem_wait 或 Sem_signal 传 递 未 初始 化 的 信号 量 ， 是 未 检查 的 运 
行 时 错误 © 
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且 它 是 公平 的 。 即 ， 如 采 有 某 个 线程 阻塞 在 一 个 信号 量 s 上 ， 那 么 与 
其 他 在 t 之 后 调用 Sem_wait(&s) 阻 塞 的 线程 相 比 ， 线 程 t 将 匈 于 这 些 线程 
恢复 执行 。 


二 值 信 号 量 ， 或 互 扩 量 ， 也 有 是 一 个 一 般 信 号 量 ， 但 其 计数 万 为 0 
或 1。 互 不 量 用 于 实现 互 不 。 例 如 ， 


Sem_T mutex; 


Sem_init(&mutex, 1); 


Sem_wait (&mutex); 


statements 


Sem_signal(&mutex) ; 


上 述 代 码 创 建 并 初始 化 一 个 二 值 信号 量 ， 使 用 它 来 确保 每 次 只 有 一 个 
线程 能 够 执行 statements ， 这 是 临界 区 (critical region) 的 一 个 例子 。 


这 种 惯用 法 是 如 此 之 常见 ， 以 至 于 Sem 接 口 为 此 导出 了 宏 ， 实 现 
了 下 述 语 法 形式 的 LOCK-END LOCK 语句: 


LOCK(mutex 


statements 


END_LOCK 


其 中 mutex — “(Bla Ss &, etek Meat e LOCKi#8 A) AF 
各 免 在 临 界 区 末尾 忘记 调用 Sem_signal， 这 种 错误 常见 有 旦 易 导致 严重 
的 问题 ， 也 有 助 于 避免 用 错误 的 信号 量 调 用 Sem_signal 。 


(exported macros 


300) = 
#define LOCK(mutex) do { Sem_T *_yymutex = &(mutex); \ 
Sem_wait(_yymutex); 


#define END_LOCK Sem_signal(_yymutex); } while (0) 


如 果 statements 可 能 引发 异常 ， 那 么 不 能 使 用 LOCK-END_LOCK， 
为 如 果 发 生 异 常 ， 互 不 量 不 会 被 释放 。 在 这 种 情况 下 ， 正 确 的 惯用 法 


= 
FE 


TRY 
Sem_wait(&mutex); 


statements 


FINALLY 
Sem_signal(&mutex); 


END_TRY; 


FINALLY 子 句 确保 ， 无 论 是 否 发 生 异 常 ， 互 不 量 都 会 被 释放 。 一 个 合 
理 的 备 选 方案 是 ， 将 这 种 惯用 法 合并 到 LOCK 和 END_LOCK 定 义 中 ， 
但 这 样 会 导致 ， 在 每 次 使 用 LOCK-END_LOCK 时 ， 都 会 带 来 TRY- 
FINALLY 语 句 的 开销 。 


互 斥 量 通常 腐 入 到 ADT 中 ， 使 得 能 够 以 线程 安全 的 方式 访问 
ADT。 例 如 ， 


typedef struct { 
Sem_T mutex; 
Table_T table; 


} Protected_Table_T; 
该 代码 将 一 个 互 斥 量 与 一 个 表 关 联 起 来 。 下 述 代码 


Protected_Table_T tab; 
tab.table = Table_new(...); 


Sem_init(&tab.mutex, 1); 


创建 了 一 个 受 保护 的 表 ， 而 


LOCK(tab.mutex) 
value = Table_get(tab.table, key); 
END_LOCK; 


可 以 从 原子 化 地 取得 与 key 关 联 的 值 。 请 注意 ，LOCK 宏 的 参数 是 互 不 
量 本 身 ， 而 非 其 地 址 。 由 于 Table_put 可 能 引发 Mem_Failed 异 常 ， 辣 tab 
添加 数据 的 操作 ， 应 该 由 如 下 的 代码 进行 : 


TRY 
Sem_wait(&tab.mutex); 
Table_put(tab.table, key, value); 
FINALLY 
Sem_signal(&tab.mutex) ; 


END_TRY; 


20.1.3 ”同步 通信 通道 


Chan 接 口 提供 了 同步 通信 通道 ， 可 用 于 在 线程 之 间 传 递 数 据 。 


(chan.h 


》 三 
#ifndef CHAN_INCLUDED 


#define CHAN_INCLUDED 


#define T Chan_T 


typedef struct T *T; 


extern T Chan_new (void); 
extern int Chan_send (T c, const void *ptr, int size); 


extern int Chan_receive(T c, void *ptr, int size); 


#undef T 


#endif 


Chan_new 创 建 、 初 始 化 并 返回 一 个 新 的 通道 ， 这 是 一 个 指针 。 
Chan_new 可 能 引发 Mem_Failed 异 常 。 


Chan_send 的 参数 包括 一 个 通道 ， 一 个 指针 指向 保存 即将 发 送 数据 
的 缓 神 区 ， 以 及 缓冲 区 包含 的 字 和 数 。 调 用 线程 会 阻塞 ， 直 至 另 一 个 
线程 对 同一 通道 调用 Chan_receive， 当 这 样 的 两 个 线程 “会 合 ” 时 ， 数 据 
从 发 送 方 复 制 到 接收 方 ， 两 个 调用 分 别 返 回 。Chan_send 返 回 接收 方 接 
SIF WEL ° 


Chan_receive 的 参数 包括 一 个 通道 ， 一 个 指针 指向 用 于 接收 数据 的 
BALK, AMAR XARA NAS Te HALA, BBA 
一 个 线程 对 同一 通道 调用 Chan_send， 当 两 个 线程 “会 合 ”" 时 ， 数 据 从 发 
送 方 复制 到 接收 方 ， 两 个 调用 分 别 返回 。 如 有 打发 送 方 提供 的 数据 多 于 


size 字 节 ， 过 多 的 字 节 将 丢弃 。Chan receive 返回 接受 的 字 节 数 。 


Chan_send 和 Chan_receive 都 可 以 接受 size 为 0 的 情形 。 回 这 两 个 函 
数 传递 的 Chan_T 值 为 NULL、ptr 为 NULL 或 size 值 为 负数 ， 都 是 已 检查 
的 运行 时 错误 。 如 果 调 用 线程 的 警报 一 待 决 标志 已 经 设置 ，Chan_send 
和 Chan_receive 都 会 立即 引发 Thread_Alerted 异 常 。 如 果 殴 报 一 待 决 标 
志 是 在 线程 阻塞 期 间 设 置 的 ， 线 程 将 集 止 等 每 并 引发 Thread_Alerted 寞 
常 。 在 这 种 情况 下 ， 数 据 可 能 已 经 传输 ， 也 可 能 沿 未 传输 。 


在 调用 Thread_init 之 前 调用 该 接口 中 的 任何 画 数 ， 都 是 已 检查 的 
运行 时 错误 。 


20.2 ”例子 


本 世 中 的 三 个 程序 ， 说 明了 对 线程 和 通道 的 简单 用 法 ， 以 及 使 用 
信和 号 量 实 现 互 斥 的 用 法 。Chan 接 口 的 实现 在 下 一 节 详 述 ， 这 是 使 用 信 
号 量 实现 同步 的 一 个 例子 。 


20.2.1 并 发 排序 


在 抢占 调度 的 情况 下 ， 线 程 是 并 发 执行 的 ， 至 少 在 概念 上 是 这 
样 。 一 组 协作 线程 可 以 分 别处 理 同 一 问题 的 各 个 部 分 。 在 多 处 理 右 系 
统 上 ， 这 种 方法 利用 并 发 性 来 减少 整体 的 执行 时 间 。 当 然 ， 在 单 处 理 
绥 系 统 上 ， 这 种 程序 实际 上 会 运行 得 慢 一 点 ， 这 是 由 于 在 线程 之 间 切 
换 的 开销 造成 的 。 但 是 ， 这 种 方法 确实 说 明了 Thread 接 口 的 用 法 。 


排序 是 一 个 很 容易 分 解 为 各 个 部 分 解决 的 问题 。sort 生 成 指定 数目 
的 随机 整数 ， 并 发 地 排序 它们 ， 并 检查 确认 结果 已 经 排序 : 


(sort.c 


Y= 
#include <stdlib.h> 
#include <stdio.h> 
#include <time.h> 
#include "assert.h" 
#include "fmt.h" 


#include "thread.h" 


#include "mem.h" 


(sort types 


303) 


(sort data 


304) 


(sort functions 


303) 


main(int argc, char *argv[]) { 


int i, n = 100000, *x, preempt; 


preempt = Thread_init(1, NULL); 
assert(preempt == 1); 
if (argc >= 2) 
n = atoi(argv[1]); 
x = CALLOC(n, sizeof (int)); 
srand(time(NULL)); 
for (i = 0; i < n; i++) 
x[i] = rand(); 
sort(x, n, argc, argv); 
for (i = 1; i < n; i++) 
if (x[i] < x[i-1]) 


break; 


assert(i == n); 
Thread_exit(EXIT_SUCCESS); 
return EXIT_SUCCESS; 

} 


time、srand 和 rand 都 是 标准 C 库 函数 。time 返 回 日 历时 间 的 某 种 整数 编 
码 ， 而 srand 使 用 该 值 来 设置 随机 数 种 子 ， 以 用 于 生成 一 个 伪 随 机 数 序 
列 。 后 续 对 rand 的 调用 ， 返 回 了 该 序列 中 的 数字 。sort 首 移 用 n 个 随机 
数 填充 x[0..n - 1] ° 


sort 函 数 是 快速 排序 的 一 个 实现 。 教 科 书 对 快速 排序 的 实现 ， 首 区 
通过 一 个 “基准 ” 值 将 数组 划分 为 两 个 子 数组 ， 然 后 递归 调用 目 身 来 分 
别 排序 每 个 子 数组 。 当 子 数组 为 空 时 ， 弟 归降 至 最 低 点 。 


void quick(int a[], int lb, int ub) { 
if (lb < ub) { 
int k = partition(a, 1b, ub); 
quick(a, lb, k - 1); 
quick(a, k + 1, ub); 


void sort(int *x, int n, int argc, char *argv[]) { 
quick(x, 0, n - 1); 
} 


partition(a, i, j) 任 意 地 选择 a[i] 作 为 基准 值 。 它 重 排 a[i..j] ， 使 得 a[i..k - 1] 
中 所 有 的 值 都 小 于 或 等 于 基准 v， 而 a[k+1..j] 中 所 有 的 值 都 大 于 v，alk] 


的 值 为 v。 


(sort functions 


303) = 


int partition(int a[], int i, int j) { 


J 


int v, k, t; 


j++; 
kri 
v = a[k]; 


while (i < j) { 
i++; while (a[i] < v && i < j) i++; 
j--; while (a[j] > v J Jas; 
if (i < j) { t = a[i]; a[i] = a[j]; a[j] = t; } 


} 
t = a[k]; a[k] = a[j]; a[j] = t; 
return j; 


partition 中 最 后 的 交换 ， 将 v 值 置 于 a[k] 中 ，partition 返 回 k。 


对 quick 的 递归 调用 可 以 由 独立 的 线程 并 发 地 执行 。 百 先 ，quick 的 


参数 必须 打包 到 一 个 结构 中 ， 这 样 quick 可 以 将 其 传递 给 Thread_new: 


(sort types 


303) = 


struct args { 
int *a; 
int lb, ub; 
}; 


(sort functions 


303) += 
int quick(void *cl) { 
struct args *p = cl; 


int lb = p->lb, ub = p->ub; 


if (lb < ub) { 
int k = partition(p->a, 1b, ub); 


(quick 


304) 


} 
return EXIT_SUCCESS ， 


递归 调用 将 在 独立 的 线程 中 执行 ， 但 仅 当 子 数组 中 元 素数 目 足 够 
时 ， 才 值得 这 样 做 。 例 如 ， 对 子 数组 afllb..k-1] 的 排序 如 下 : 


(quick 


304) = 


p->lb = 1b; 
p->ub = k - 1; 
if (k - lb > cutoff) { 
Thread_T t; 
t = Thread_new(quick, p, sizeof *p, NULL); 
Fmt_print("thread %p sorted %d..%d\n", t, lb, k - 1); 
} else 


quick(p); 


其 中 cutoff 指 定 了 一 个 国 值 ， 仅 当 需 要 排序 的 元 素数 目 大 于 该 国 值 时 ， 
才 会 在 独立 线程 中 排序 该 子 数组 。 类 似 地 ， 对 子 数组 a[k+1..ub] 的 排序 
is 


(quick 


304) += 
p->lb = k + 1; 
p->ub = ub; 
if (ub - k > cutoff) { 
Thread_T t; 
t = Thread_new(quick, p, sizeof *p, NULL); 
Fmt_print("thread %p sorted %d..%d\n", t, k + 1, ub); 
} else 


quick(p); 


sort 首 移 调用 quick， 随 着 排序 过 程 的 进展 ，quick 又 衍生 出 许多 线程 ， 
sort 接 下 来 调用 Thread_join 等 待 所 有 这 些 线程 结束 : 


(sort data 


304) = 


int cutoff = 10000; 


(sort functions 


303) += 
void sort(int *x, int n, int argc, char *argv[]) { 


struct args args; 


if (argc >= 3) 

cutoff = atoi(argv[2]); 
args.a = X; 
args.lb = 0; 
args.ub =n - 1; 
quick(&args); 


Thread_join(NULL); 


用 n 和 cutoff 的 默认 值 100 0004110 000 来 执行 sort， 会 衍生 出 18 个 线 
fE: 


% sort 


thread 69f08 sorted 0..51162 


thread 6dfe0 sorted 51164. .99999 
thread 72028 Sorted 51164. .73326 
thread 76070 sorted 73328 . ,99999 
thread 6dfe0 sorted 51593. .73326 
thread 72028 sorted 73328. .91415 
thread 7a0b8 sorted 51593. .69678 
thread 7e100 sorted 73328. .83741 
thread 82148 sorted 3280. .51162 

thread 69f08 sorted 73328. .83614 
thread 7e100 sorted 51593. .67132 
thread 6dfeO sorted 7931. .51162 

thread 69f08 sorted 14687. .51162 
thread 6dfe0 sorted 14687. .37814 
thread 72028 sorted 37816. .51162 
thread 69f08 sorted 15696. .37814 
thread 6dfe0 sorted 15696. .26140 


thread 76070 sorted 26142. .37814 


不 同 的 执行 会 排序 不 同 的 值 ， 因 此 ， 每 次 执行 时 创建 线程 的 数目 和 
quick 输 出 的 跟踪 记录 也 有 所 不 同 。 


sort 有 一 个 重要 的 bug: 它 末 能 保护 quick 中 对 Fmt_print 的 调用 。 
Fmt_print 不 你 证 十 可 重 入 的 ，C 库 中 许多 例 程 都 是 不 可 重 入 的 。 如 琳 
线程 被 中 断 ， 而 后 又 恢复 执行 ， 则 不 能 保证 printf 或 任何 其 他 库 例 程 能 
正确 地 工作 。 


20.2.2 ”临界 区 


在 抢占 系统 中 ， 任 何 可 以 由 多 个 线程 访问 的 数据 都 必须 受到 保 
护 。 访 问 必 须 被 限制 在 临界 区 中 进行 ， 每 次 只 有 一 个 线程 允许 进入 临 
界 区 。spin 是 一 个 简单 的 例子 ， 说 明了 访问 共 至 数据 的 正确 和 错 谍 方 
Ae 


(spin.c 


yE 
#include <stdio.h> 
#include <stdlib.h> 
#include "assert.h" 
#include "fmt.h" 
#include "thread.h" 


#include "sem.h" 


#define NBUMP 30000 


(spin types 


306) 


(spin functions 


306) 


int n; 


int main(int argc, char *argv[]) { 


int m = 5, preempt; 


preempt = Thread_init(1, NULL); 
assert(preempt == 1); 
if (argc >= 2) 
m = atoi(argv[1]); 
n= 0; 


(increment 
n unsafely 


306) 
Fmt_print("%d == %d\n", n, NBUMP*m); 
n= 0; 


(increment 
n safely 


307) 
Fmt_print("%d == %d\n", n, NBUMP*m) ; 
Thread_exit(EXIT_SUCCESS) ， 
return EXIT_SUCCESS,; 


spin 衍 生 m 个 线程 ， 每 个 线程 都 对 n 加 1 达 NBUMP 次 。 前 m 个 线程 并 不 
确保 对 n 的 加 1 操作 是 原子 化 的 : 


(increment 


n unsafely 


306) = 
{ 
int 1; 
for (i = 0; i < m; itt) 
Thread_new(unsafe, &n, ©, NULL); 
Thread_join(NULL); 
} 


main 局 动 m 个 线程 ， 每 个 线程 都 用 指向 n 的 双重 指针 调用 unsafe: 


(spin functions 


306) = 
int unsafe(void *cl) { 


int i, *ip = cl; 


for (i = 0; i < NBUMP; i++) 
*ip = *ip + 1; 
return EXIT_SUCCESS; 
} 


unsafe 是 错误 的 ， 因 为 *ip = *ip + 1 的 执行 可 能 被 中 断 。 如 果 刚 好 在 获 
取 *ip 的 值 之 后 被 中 断 ， 而 同时 其 他 线程 对 *ip 执 行 了 加 1 探 作 ， 那 么 赋 
值 给 *ip 的 值 将 是 不 正确 的 。 


第 二 批 的 m 个 线程 都 调用 下 述 代 码 : 


(spin types 


306) = 

struct args { 
Sem_T *mutex; 
int *ip; 


}; 
(spin functions 


306) += 
int safe(void *cl) { 
struct args *p = cl; 


int 1; 


for (i = 0; i < NBUMP; i++) 
LOCK( *p->mutex ) 
*þp->ip = *p->ip + 1; 
END_LOCK; 


return EXIT_SUCCESS ， 


safe 确 保 每 次 只 有 一 个 线程 能 执行 临界 区 ， 即 语句 *ip = *ip + 1。main 
初始 化 了 一 个 二 值 信 号 量 ， 所 有 线程 都 使 用 该 信号 量 来 进入 safe 中 的 
| 临界 区 : 


(increment 
n safely 


307) = 
{ 
int 1; 
struct args args; 
Sem_T mutex; 
Sem_init(&mutex, 1); 
args.mutex = &mutex,; 
args.ip = &n; 
for (i = 0; i < m; i++) 
Thread_new(safe, &args, sizeof args, NULL); 


Thread_join(NULL); 


任意 时 刻 都 可 能 发 生 抢 占 ， 因 此 spin 每 次 执行 时 ， 使 用 unsafe 的 线程 都 
可 能 产生 不 同 的 结果 : 


% Spin 


87102 == 150000 
150000 == 150000 


% spin 


148864 == 150000 
150000 == 150000 


20.2.3 ”生成 素数 


最 后 一 个 例子 说 明了 一 个 通过 通信 通道 实现 的 流水 线 。sieve N 计 
算 并 输出 小 于 或 等 于 N 的 素数 。 例 如 : 


% sieve 


100 
2357 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 
79 83 89 97 


sieve XIN TG MIRAIN IIE (Sieve of Eratosthenes) 用 于 计算 
AM, RPE Sint MEDRE, ATER SPEAR 
数 。 通 道 用 于 连接 这 些 线程 以 形成 流水 线 ， 如 图 20-1 所 示 。 源 线程 

(ABATE) 生成 2 以 及 后 续 的 奇数 ， 并 将 其 顺 流 水 线 向 下 传输 。 
source 和 sink (上 暗 灰 色 方 框 ) 之 间 的 过 滤器 〈 浅 灰色 方 框 ) 用 于 丢弃 指 
定 素 数 的 倍数 ， 并 将 其 他 数字 沿 流水 线 回 下 传输 。sink 也 过 滤 出 素 
数 ， 不 过 如 采 一 个 数 通 过 了 sink 的 过 滤器 ， 那 么 它 丈 是 素数 。 图 20-1 中 
的 每 个 方 框 都 是 一 个 线程 ， 每 个 方 框 中 的 数字 都 是 与 该 线程 关联 的 素 
数 ， 方 框 之 间 形 成 流水 线 的 线 则 是 通道 。 


有 n 个 素数 关联 到 sink 和 每 个 filter。 当 sink 累 积 了 n 个 素数 时 (图 
20-1 中 n 为 5) ， 它 会 衍生 出 自身 的 一 个 副本 ， 将 自身 转化 为 一 个 


filter。 图 20-2 说 明了 sieve 如 何 扩展 ， 以 计算 出 100 以 内 的 素数 。 


source filter filter sink 


图 20-1 Bai 


在 sieve 初 始 化 线程 系统 之 后 ， 它 为 source 和 sink 创 建 线程 ， 用 一 个 
源 的 通道 连接 它们 ， 并 退出 : 


(sieve.c 


Y= 
#include <stdio.h> 
#include <stdlib.h> 
#include "assert.h" 
#include "fmt.h" 
#include "thread.h" 


#include "chan.h" 


struct args { 
Chan_T cC; 
int n, last; 


}; 


(sieve functions 


308) 


int main(int argc, char *argv[]) { 


struct args args; 


Thread_init(1, NULL); 

args.c = Chan_new(); 

Thread_new(source, &args, sizeof args, NULL); 
args.n = argc > 2 ? atoi(argv[2]) : 5; 
args.last = argc > 1 ? atoi(argv[1]) : 1000; 
Thread_new(sink, &args, sizeof args, NULL); 
Thread_exit(EXIT_SUCCESS) ， 


return EXIT_SUCCESS,; 


source 回 其 “输出 ”通道 输出 整数 ， 通 道 是 通过 args 结 构 的 c 字 段 传递 
source 的 ， 这 也 是 source 所 需 的 唯一 字段 : 


(sieve functions 


308) = 
int source(void *cl) { 
struct args *p = cl; 


int 1 = 2; 


if (Chan_send(p->c, &i, sizeof i)) 


for (i = 3; Chan_send(p->c, &i, sizeof i); ) 
i += 2; 


return EXIT_SUCCESS; 


source sink 


| 


图 20-2 用 以 计算 100 以 内 的 素数 的 sieve 的 变化 


只 要 有 接收 方 授 受 ，source 束 会 发 送 2 和 后 续 的 奇数 。 在 sink 输 出 
所 有 素数 后 ， 则 癌 Chan_Receive 传 递 0 作 为 缓冲 区 长 度 参数 ， 这 会 通知 
其 上 游 的 过 滤器 工作 已 经 完成 ，sink 就 此 结束 。 每 个 filter 都 具有 类 似 


的 行为 ， 直 至 source 确 认 其 接收 方 读 取 到 零 字 节 为 止 ， 此 时 source 线 程 
将 结束 。 


filter 从 其 输入 通道 读 取 整 数 ， 并 将 可 能 的 素数 写 到 输出 通道 ， 直 
至 接收 该 输出 的 线程 不 再 接收 为 止 。 


(sieve functions 


308) += 
void filter(int primes[], Chan_T input, Chan_T output) { 


int j, X; 


for (;;) { 
Chan_receive(input, &x, sizeof x); 


(x is a multiple of 


primes[0...] 310) 
if (primes[j] == 0) 
if (Chan_send(output, &x, sizeof x) == 0) 
break; 
} 
Chan_receive(input, &x, 0); 


} 


primes[0..n-1] 包 含 了 与 一 个 filter 相关 联 的 素数 。 该 数组 以 整数 0 结尾 ， 
因此 ， 进 行 搜 索 的 循环 体会 遍历 primes， 直 至 判断 出 x 不 是 素数 ， 或 者 
遇 到 数组 的 结束 符 : 


(x is a multiple of 


primes[0...] 310) = 
for (j = 0; primes[j] != © && x%primes[j] != 0; j++) 


£ 


如 上 述 代 码 所 示 ， 当 遇 到 表示 数组 结束 的 0 时 ， 搜 索 失 败 。 在 这 种 情况 
下 ，x 可 能 古 素数 ， 因 此 需要 将 其 通过 输出 通道 发 送 给 男 一 个 人 fter 或 


sink ° 


所 有 的 操作 都 在 sink 中 ，args 的 c 字 段 包 含 了 sink 的 输入 通道 ，n 字 
段 给 出 了 各 个 filter 中 素数 的 数目 ，last 字 段 包 含 了 N， 即 所 需 判 断 素数 
的 范围 。sink 初 始 化 primes 数 组 并 监听 其 输入 : 


(sieve functions 


308) += 

int sink(void *cl) { 
struct args *p = cl; 
Chan_T input = p->c; 


int 1 = 0, j, X, primes[256]; 


primes[0] = 0; 
for (;;) { 
Chan_receive(input, &x, sizeof x); 


(x is a multiple of 


primes[0...] 310) 


if (primes[j] == 0) { 


(x is prime 


310) 


Fmt_print("\n"); 
Chan_receive(input, &x, 0); 


return EXIT_SUCCESS; 


如 有 果 x 不 是 primes 中 某 个 非 零 值 的 倍数 ， 那 么 x 是 素数 ，sink 将 输出 它 并 
将 其 添加 到 primes 。 


(x is prime 


310) = 
if (x > p->last) 
break; 
Fmt_print(" %d", x); 
primes[it+] = x; 


primes[i] = 0; 


(spawn a new 


sink and call 


filter 311) 


当 x 大 于 p->last 时 ， 所 有 要 求 的 系数 都 已 经 输出 ，sink 可 以 结束 。 在 此 
之 前 ， 它 还 要 等 待 从 输入 通道 再 读 取 一 个 整数 ， 但 只 读 取 0 个 字 世 (R 
冲 区 长 度 为 0) ， 这 将 通知 上 游 的 线程 计算 已 经 完成 。 


在 sink 索 积 了 n 个 素数 之 后 ， 它 将 殉 隆 目 映 并 变 为 一 个 flter， 这 需 
要 一 个 新 的 通道 : 


(spawn a new 
sink and call 


filter 311) = 
{ 
p->c = Chan_new(); 
Thread_new(sink, p, sizeof *p, NULL); 
filter(primes, input, p->c); 
return EXIT_SUCCESS; 
} 


新 的 通道 变 为 克隆 线程 的 输入 通道 ， 以 及 新 filter 的 输出 通道 。 原 本 
sink 的 输入 通道 ， 即 为 新 的 filter 的 输入 通道 。 当 fiter 返 回 时 ， 其 线程 
退出 。 


在 sieve 中 ， 所 有 线程 之 间 的 切换 都 发 生 在 Chan_send 和 
Chan_receive 中 ， 至 少 总 有 一 个 线程 是 处 于 就 绪 状 态 的 〈 可 运行 ) 。 


而 ，sieve 可 以 在 抢占 调度 和 非 抢 占 调度 下 工作 ， 这 是 一 个 简单 的 例 
子 ， 示 范 了 如 何 使 用 线程 来 规划 应 用 程序 的 结构 。 非 抢占 线程 通常 称 
作协 程 《coroutine， 或 协同 例 程 ) 。 


20.3 ”实现 


Chan 的 实现 可 以 完全 建立 在 Sem 的 实现 之 上 ， 因 此 Chan 是 与 机 器 
ERHI ° Semb Æ SHLAA, (E EAKR F Thread O SEILAS N ŠB 
结构 ， 因 此 Thread 接 口 的 实现 也 同时 实现 了 了 Sem 接口 。 单 处 理 絮 的 
Thread 实 现 ， 可 以 在 很 大 程度 上 独立 于 往 主 机 及 其 操作 系统 。 如 下 文 
详 述 ， 只 有 上 下 文 切 换 和 抢占 这 两 部 分 的 代码 中 ， 才 能 对 机 器 和 操作 
系统 依赖 。 


20.3.1 同步 通信 通道 


Chan_T 征 一 个 指 同 结构 实例 的 指针 ， 结 构 中 包含 三 个 信号 量 、 一 
个 指 同 所 需 传递 消 轧 的 指针 和 一 个 字 节 计数 : 


i 


(chan.c 


Y= 
#include <string.h> 
#include "assert.h" 
#include "mem.h" 
#include "chan.h" 


#include "sem.h" 


#define T Chan_T 
struct T { 

const void *ptr; 

int *size; 

Sem_T send, recv, sync; 
}; 


(chan functions 


312) 


aw 


在 创建 一 个 新 通道 时 ，ptr 和 size 字 段 是 未 定义 的 ， 信 
sync 的 计数 器 分 别 初始 化 为 1、0、0: 


(chan functions 


312) = 
T Chan_new(void) { 


T C; 


NEW(c); 

Sem_init(&c->send, 1); 
Sem_init(&c->recv, 0); 
Sem_init(&c->sync, 0); 


return c; 


与 量 send、recv 和 和 


send 和 recv 信 号 量 控制 对 ptr 和 size 的 访问 ，sync 信 号 量 确保 消息 传输 是 
同步 的 (Chan 接 口 的 规定 ) 。 线 程 通过 填充 ptr 和 size 字 段 来 发 送 消 
息 ， 但 仅 当 安全 时 才能 这 样 做 。send 的 计数 器 为 1 时 ， 发 送 方 才能 设置 
ptr 和 size 字 段 ，send 的 计数 器 为 0 时 则 不 行 (例如 ， 在 接收 方 获 取消 息 
前 ) 。 类 似 地 ，recv 的 计数 器 为 1 时 ，ptr 和 size 字 段 所 包含 的 指针 是 有 
效 的 ， 指 向 一 条 消息 及 其 长 度 ， 如 果 recv 的 计数 器 为 0， 则 不 然 (fil 
如 ， 在 发 送 方 设置 ptr 和 size 字 上段 之 前 ) 。send 和 recv 不 断 “ 震 荡 ” 当 
recv 计 数 絮 为 0 时 ，send 的 计数 姻 为 1， 反 之 亦 然 。 当 接收 方 已 经 成 功 
地 将 一 条 消 忆 复制 到 私有 的 缓冲 区 中 时 ，sync 的 计数 妮 为 1 。 


Chan_send 发 送 一 条 消息 ， 该 函数 首先 在 send 上 等 待 ， 而 后 填充 ptr 
和 Size 字段， 接 下 来 通知 recv， 然 后 在 sync 上 等 竺 : 


(chan functions 


312) += 
int Chan_send(Chan_T c, const void *ptr, int size) { 
assert(c); 
assert(ptr); 
assert(size >= 0); 
Sem_wait(&c->send); 
c->ptr = ptr; 
c->size = &size; 
Sem_signal(&c->recv); 
Sem_wait(&c->sync); 


return size; 


c->size 包 含 一 个 指针 ， 指 癌 消 恩 的 字 节 计数 ， 接 收 方 可 以 修改 该 计 
数 ， 从 而 通知 发 送 方 传输 的 字 节 数 。Chan_receive 也 同样 执行 三 个 步 
3, Chan o Æ A ¢bHY ° Chan_receive#e — %53a, VA 
数 首 先 在 recv 上 等 待 ， 而 后 将 消息 复制 到 其 参数 指定 的 缓冲 区 中 并 修 
改 字 方 计数 ， rae 前 知 sync 和 send: 


(chan functions 


312) += 
int Chan_receive(Chan_T c, void *ptr, int size) { 


int n; 


assert(c); 
assert(ptr); 
assert(size >= 0); 
Sem_wait(&c->recv); 
n = *c->size; 
if (size < n) 

n = size; 
*c->size = n; 
if (n > 0) 

memcpy (ptr, c->ptr, n); 
Sem_signal(&c->sync); 
Sem_signal(&c->send); 


return n; 


n 是 实际 上 接收 的 字 节 数 ， 该 值 可 能 为 0。 上 述 代 码 处 理 了 所 有 三 种 情 
É: 发 送 方 的 Size 大 于 接收 方 的 size， 两 个 size 相 等 ， 接 收 方 的 Size 大 于 
发 送 方 的 Size ° 


20.3.2 


线程 


Thread 接 口 的 实现 thread.c， 其 中 实现 了 Thread 和 Sem 接 口 : 


(thread.c 


Y= 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


#include 


<stdio.h> 

<stdlib.h> 

<string.h> 
</usr/include/signal .h> 
<sys/time.h> 

"assert.h" 

"mem. h" 

"thread.h" 


"sem.h" 


void _MONITOR(void) {} 


extern void _ENDMONITOR(void); 


#define T Thread_T 


(macros 


315) 


(types 


314) 
(data 


314) 


(prototypes 


317) 


(static functions 


315) 


(thread functions 


316) 


#undef T 


#define T Sem_T 


(sem functions 


330) 


#undef T 


其 中 的 空 函 数 - MONITOR 和 外 部 函数 ENDMONITOR， 将 只 使 用 其 地 
址 。 如 下 所 述 ， 这 些 地 址 用 于 包围 临界 区 ， 其 中 的 线程 代码 不 能 被 中 


上 晰 。 其 中 少量 代码 是 用 汇编 语言 编写 的 ，_ENDMONIITOR 定 义 在 汇编 
语言 文件 的 来 尾 ， 这 样 临 界 区 就 包括 了 这 些 汇编 代码 。 其 名 称 以 下 划 
线 开 头 ， 这 个 惯例 用 于 表示 由 具体 实现 定义 的 汇编 语言 名 称 。 


线程 处 理 是 一 个 不 透明 指针 ， 指 向 Thread_T 结 构 ， 其 中 承载 了 确 
定 线 程 状态 需要 的 所 有 信息 。 该 结构 通常 称 之 为 线程 控制 块 ”(thread 


control block) ° 


(types 


314) = 
struct T { 
unsigned long *sp; /* 必须 定义 在 结构 的 开头 */ 
(fields 


314) 


起 始 的 字段 包含 了 与 机 器 和 操作 系统 相关 的 值 。 这 些 字 段 出 现在 
Thread_T 结 构 的 开头 ， 因 为 它们 是 由 汇编 语言 代码 访问 的 。 将 这 些 字 
段 放置 在 结构 的 开头 ， 则 较为 容易 访问 ， 而 且 添 加 新 字段 时 无 需 修 改 
现存 的 汇编 语言 代码 。 大 多 数 机 器 上 ， 只 需要 一 个 这 样 的 字段 sp， 其 
中 包含 了 线程 的 栈 指针 。 


大 多 数 线 程 操 作 ， 都 围绕 着 将 线程 放 入 队列 和 从 队列 中 移 除 来 进 
行 。Thread 和 Sem 接 口 的 设计 ， 用 于 维护 一 个 简单 的 不 变量 : 线程 或 
者 不 在 任何 队列 上 ， 或 者 仅 在 一 个 队列 上 。 这 种 设计 能 够 避免 为 队列 
项 分 配 空间 。 队 列 的 表示 无 需 其 他 方式 (例如 ，Seq_T) ， 只 需要 使 


用 Thread_T 结 构 的 循环 链表 即 可 。 一 个 例子 是 束 绪 队列 ， 其 中 包含 了 
AR) BC DEE gis AVIS TT eA 


(data 


314) = 
static T ready = NULL; 


(fields 


314) = 
T link; 


T *inqueue; 


图 20-3 给 出 了 就 绪 队 列 上 的 三 个 线程 ， 顺 序 为 A、B、C。ready 指 向 队 
列 中 最 后 一 个 线程 C， 该 队列 通过 link 字 段 连 接 。 每 个 Thread_T 结 构 的 
inqueue 字 段 指向 表示 队列 的 变量 ， 这 里 是 ready， 该 字段 用 于 将 线程 从 
队列 中 删除 。 当 队列 变量 为 NULL 时 ， 队 列 为 室 ， 如 ready 的 初始 值 所 
示 ， 可 以 通过 下 述 宏 来 检测 ; 


图 20-3 ”就 绪 队 列 中 的 三 个 线程 


(macros 


315) = 
#define isempty(q 


) ((q 


) == NULL) 


WR ER AB ESE TAG E, HA t-link Fil t->inqueue F Be A Æ 
NULL ， 否 则 两 个 字段 都 是 NULL。 下 述 队 列 函 数 使 用 与 jnk 和 inqueue 
字段 相关 的 断言 ， 来 确保 上 文 提 到 的 不 变量 为 真 。 例 如 ，put 将 一 个 线 
程 添加 到 一 个 空 或 非 空 队列 : 


(static functions 


315) = 


static void put(T t, T *q) { 
assert(t); 
assert(t->inqueue == NULL && t->link == NULL); 
if (*q) { 
t->link = (*q)->link; 
(*q)->link = t; 
} else 
t->link = t; 
*q=t; 


t->inqueue = q; 


这 样 ，put(t, & ready) 将 t 添 加 到 就 绪 队 列 。put 的 参数 包括 队列 变量 的 地 
址 ， 因 而 可 以 修改 该 变量 : 在 调用 put(t, & qdq)] 之 后 ，q 等 于 t， 而 t- 


>inqueue 等 于 &q 。 


get 从 一 个 给 定 队列 中 移 除 第 一 个 元 素 : 


(static functions 


315): += 
static T get(T *q) { 
oE 


assert(!isempty(*q)); 
t = (*q)->link; 
if (t == *q) 


*q = NULL; 


else 

(*q)->link = t->link; 
assert(t->inqueue == q); 
t->link = NULL; 
t->inqueue = NULL; 


return t; 


ERA E FA inqueue F Book A RAR ASR EG F, BoA E link Al 
inqueue 字 段 清 零 ， 以 标记 该 线程 不 再 处 于 任何 队列 中 。 


delete 是 第 二 个 也 是 最 后 一 个 队列 钞 数 ， 该 函数 将 一 个 线程 从 其 所 
在 的 队列 移 除 : 


(static functions 


315) += 
static void delete(T t, T *q) { 


T p; 


assert(t->link && t->inqueue == q); 
assert(!isempty(*q)); 
for (p = *q; p->link != t; p = p->link) 
if (p == t) 

*q = NULL; 
else { 


p->link = t->link; 


if (*q = t) 
“q = p; 
} 
t->link = NULL; 


t->inqueue = NULL; 


第 一 个 断言 确保 t 在 q 中 ， 第 二 个 断言 确保 该 队列 是 非 空 的 〈 这 是 必须 
的 ， 因 为 t 在 g 中 ) 。if 语 句 处理 了 qd 中 只 有 t 一 个 线程 的 情形 。 


Thread_init 创 建 了 “ 根 ” 线 程 〈 根 线程 的 Thread_T 结 构 是 静态 分 配 
的 ) 


(thread functions 


316) = 

int Thread_init(int preempt, ...) { 
assert(preempt == 0 || preempt == 1); 
assert(current == NULL); 


root.handle = &root; 
current = &root; 
nthreads = 1; 

if (preempt) { 


(initialize preemptive scheduling 


328) 
} 


return 1; 


(data 


314) += 
static T current; 
static int nthreads; 


static struct Thread_T root; 


(fields 


314) += 
T handle; 


current <2 4 Bi) fF @ Mb SH as AY 22 fe, ，nthreads 是 现存 线程 的 数目 。 
Thread_new 将 nthreads 加 1， 而 Thread_exit 将 其 减 1。handle 字 上 段 只 是 指 
回 线 程 句柄 ， 它 有 助 于 检查 句柄 的 有 效 性 : 仅 当 t 等 于 fr+>handle 时 ，t 标 
识 一 个 现存 的 线程 。 


如 果 current 为 NULL， 尚 未 调用 Thread_init， 因 此 如 上 述 代 码 所 
示 ， 对 current 为 NULL 的 检测 ， 实 现 了 接口 规定 的 已 检查 的 运行 时 错 
ie: Thread_init 必 须 调用 且 仅 调用 一 次 。 在 其 他 Thread 和 Sem 函 数 中 ， 
对 current 不 是 NULL 的 检测 ， 则 实现 了 接口 规定 的 男 一 个 已 检查 的 运行 
时 错误 : Thread_init 必 须 在 任何 其 他 Thread、Sem 或 Chan 函 数 之 前 调 
用 。 例 如 Thread_self， 该 函数 只 是 返回 current: 


(thread functions 


316) += 
T Thread_self(void) { 
assert(current); 


return current; 


线程 之 间 的 切换 需要 一 些 机 器 相关 代码 ， 因 为 〈 举 例 来 说 ) 每 个 
线程 都 有 目 身 的 栈 和 有 弄 曾 状态 。 上 下 文 切换 原 语 有 很 多 可 能 的 设计 方 
案 ， 所 有 这 些 都 相对 人 简单， 因为 它们 是 全 部 或 部 分 用 汇编 语言 编写 
的 。Thread 的 实现 使 用 了 单一 、 特 定 于 实现 的 原 语 。 


(prototypes 


317) = 


extern void _swtch(T from, T to); 


1K BH BRE E F SC M from $k fE Y H 2l tok E, H H from Fil to æ $8 m 
Thread_T 结 构 的 指针 。_swtch 类 似 于 setmp 和 longjmp: 在 线程 A 调用 
_swtch 时 ， 控 制 转移 到 线程 B。 在 B 调 用 _swtch 以 恢复 线程 A 的 执行 
时 ，A 对 _swtch 的 调用 返回 。 因 而 ，A 和 B 可 以 将 _swtch 当 做 通常 的 函 
数 调用 处 理 。 这 种 简单 的 设计 ， 也 利用 了 机 顺 的 调用 序列 ， 这 有 助 于 
在 切换 到 线程 B 时 保存 线程 A 的 状态 。 唯 一 的 不 利之 处 是 ， 新 线程 创建 
上 时， 其 状态 必须 貌似 在 此 前 调用 过 _swtch， 因 为 其 第 一 次 运行 将 是 从 
_Swtch 返 回 。 


_swtch 仅 在 一 处 调用 ， 即 静态 函数 run: 


(static functions 


315) += 
static void run(void) { 


T t = current; 


Current = get(&ready); 
t->estack = Except_stack; 
Except_stack = current->estack; 


_swtch(t, current); 


(fields 


314) += 


Except_Frame *estack; 


run M 4 BU PT ARE PR Bl fi TZ ASE BY ZR o EF ready 4h 
的 线程 从 队列 移 除 ， 设 置 current， 并 切换 到 这 个 新 线程 。estack 字 段 包 
舍 的 指针 指 同 线程 异常 栈 顶 部 的 异常 帧 ，run 负 责 更 新 Except 的 全 局 
Except_stack (参见 4.2 节 ) 。 


所 有 可 能 导 臻 上下文 切换 的 Thread 和 Sem 函 数 都 会 调用 run， 它 们 
在 调用 rn 之 前 会 将 当前 线程 置 于 ready 或 男 一 个 适当 的 队列 上 。 
Thread_pause 是 最 简单 的 例子 : 它 将 current 置 于 ready 队 列 上 ， 并 调用 


run ° 


(thread functions 


316) += 

void Thread_pause(void) { 
assert(current); 
put(current, &ready); 
run(); 


J 


如 果 仅 有 一 个 运行 线程 ，Thread_pause 将 其 置 于 ready 队 列 上 ， 而 run 则 

又 从 就 绪 队 列 移 除 该 线程 ， 并 切换 到 该 线程 。 因 而 ，_swtch(t, 0 必须 

能 够 正常 工作 。 图 20-4 描 述 了 执行 下 列 调用 而 导致 在 线程 A、B 和 C 之 

间 发 生 的 上 下 文 切换 ， 假 定 最 初 A 持 有 处 理 器 ，ready 队 列 包 含 B 和 C 
(顺序 如 图 中 方 括 号 所 示 ) 。 


A B C 


Thread_pause() Thread_pause() Thread_pause() 
Thread_join(C) Thread_exit (0) Thread_exit (0) 
Thread_exit(0) 


图 20-4 中 垂直 的 实 线 箭头 表示 各 线程 持 有 处 理 器 的 时 间 段 ， 而 水 
平 的 虚线 箭头 则 表示 上 下 文 切换 ， 束 绪 队 列 如 图 中 实 线 荫 头 劳 边 的 方 
括号 所 示 。 图 中 每 个 上 下 文 切换 下 ， 都 给 出 了 Thread 函 数 及 其 导致 的 
_swtch 调 用 。 


在 A 调用 Thread_pause 上 时 ， 它 被 添加 a 到 ready，B 被 从 ready 队 列 移 除 
并 获得 处 理 咽 。 在 B 运 行 时 ，ready 包 含 C A。 在 B 调 用 Thread_pause 
时 ，C 被 从 ready 删 除 并 获得 处 理 器 。 


时 间 A B C 


Thread_pause() 、 
_swtch(A, B) Je A] 
Thread_pause() 
_swtch(B,C) |e B] 
. Thread_pause()} 
fe c] _Swtch(C,A) 
Thread_join(C) 
_swtch(A, B) | [C] 
Thread_exit(0) [] 
-swtch(B,C) 
| Thread_exit(0) 
| _Swtch(C,4) 
Thread_exit(0) 
exit(0) 


图 20-4 ”在 三 个 线程 之 间 的 上 下 文 转 接 


此 时 ready 包 含 A B。 在 C 调 用 Thread_pause 之 后 ，ready 再 次 包含 B 
C， 此 时 A 恢复 运行 状态 。 在 A 调用 Thread_join(C) 时 ， 它 阻塞 直至 线程 
C 结 束 ， 因 此 处 理 器 被 分 配给 线程 B 〈 此 时 处 于 ready 的 头 部 ) 。 


到 这 里 ，ready 仅 包含 C， 因 为 A 处 于 与 C 相 关 的 一 个 队列 中 。 在 B 
调用 Thread_exit 时 ，run 切 换 到 线程 C， 而 ready 变 为 空 队列 。 线 程 C 通 
过 调用 Thread_exit 结 束 ， 这 导致 线程 A 被 重新 置 于 ready 队 列 。 因 而 ， 
在 Thread_exit 调 用 runH 上 时， 线程 A 得 到 人 处理 右 。 但 A 对 Thread_exit 的 调用 
并 不 导致 上 下 文 切换 : 此 时 A 是 系统 中 唯一 的 线程 ， 因 此 Thread_exit 
调用 了 exit。 


在 ready 队 列 为 空 ， 而 调用 了 run 时 ， 将 发 生死 锁 ， 即 ， 没 有 可 运 
行 线程 。 死 锁 是 已 检查 的 运行 时 错误 ， 当 对 衬 的 吏 绪 队列 调用 get 时 ， 


可 以 检测 到 死 锁 。 


Thread_join 和 Thread_exit 说 明了 涉及 “汇合 队列 ” (join queue) 和 
瓯 绪 队 列 的 队列 操作 。 有 两 种 风格 的 Thread join: Thread_join(D 等 竺 
线程 t 结 束 ， 并 返回 {t 的 退出 代码 ， 即 t 传 递 给 Thread_exit 的 值 ，t 不 能 是 
调用 Thread_join 的 线程 。Thread_join(NULL) 等 待 所 有 线程 结束 ， 并 返 
回 0， 程 序 中 只 有 一 个 线程 能 调用 Thread_join(NULL)。 


(thread functions 


316) += 

int Thread_join(T t) { 
assert(current && t != current); 
testalert(); 
if (t) { 


(wait for thread 


t to terminate 


319) 


} else { 


(wait for all threads to terminate 


320) 


return 0; 


如 下 所 述 ， 如 果 调 用 线程 已 经 处 于 “警报 一 待 诀 ?状态 ， 则 testalert 将 引 
发 Thread_Alerted 异 常 。 当 t 不 是 NULL 旦 指向 某 个 现存 的 线程 时 ， 调 用 
线程 将 目 身 置 于 t 的 汇合 队列 上 ， 以 等 待 t 结 束 ， 否 则 ，Thread_join 立 即 
返回 -1。 


(wait for thread 
t to terminate 


319) = 

if (t->handle == t) { 
put(current, &t->join); 
run(); 
testalert(); 


return current->code; 


} else 


return -1; 
(fields 


314) += 
int code; 


T join; 


仅 当 t 等 于 t+>handle 时 ，t 才 是 一 个 现存 的 线程 。 如 下 所 示 ， 当 一 个 线程 
结束 时 ，Thread_exit 将 handle 字 段 清 零 。 当 t 结 束 时 ，Thread_exit 将 其 


参数 保存 到 t+>join 队 列 中 各 个 Thread_T 的 code 字 段 中 ， 并 随 之 将 这 些 
线程 移动 到 残 绪 队列 。 


因而 ， 当 这 些 线程 再 次 执行 时 ， 很 容易 得 到 退出 代码 ， 在 各 个 恢 
复 执 行 的 线程 中 ，Thread_join 会 返回 该 值 。 


当 t 为 NULL 时 ， 调 用 线程 被 置 于 join0 队 列 ， 其 中 只 能 包含 一 个 线 
程 ， 来 等 待 所 有 其 他 线程 结束 : 


(wait for all threads to terminate 


320) = 

assert(isempty(join0)); 

if (nthreads > 1) { 
put(current, &joinO); 
run(); 


testalert(); 


(data 


314) += 


static T joino; 


调用 线程 下 一 次 运行 时 ， 它 将 成 为 程序 中 唯一 的 线程 。 该 代码 也 处 理 
了 调用 线程 已 经 是 系统 中 唯一 线程 的 情形 ， 即 nthreads 等 于 1 时 。 


Thread_exit 有 很 多 工作 需要 完成 : 它 必须 释放 与 调用 线程 相关 的 
资源 ， 使 等 待 调 用 线程 结束 的 各 个 线程 回复 执行 ， 并 使 之 获得 调用 线 
程 的 退出 代码 ， 并 检查 调用 线程 是 否 是 系统 中 最 后 第 二 个 或 最 后 一 个 
线程 。 


(thread functions 


316) += 
void Thread_exit(int code) { 
assert(current); 
release(); 
if (current != &root) { 
Ccurrent->next = freelist; 
freelist = current; 
} 
current->handle = NULL; 


(resume threads waiting for 


current's termination 


320) 


(run another thread or exit 


321) 


(fields 


314) += 
T next; 


(data 


314) += 


static T freelist; 


对 release 的 调用 ， 以 及 将 current 添 加 到 freelist 的 代码 ， 这 两 者 协作 完成 
了 对 调用 线程 资源 的 释放 ， 细 下 在 下 文 详 述 。 如 果 调 用 线程 是 根 线 
程 ，Thread_T 实 例 不 能 释放 ， 因 为 其 是 静态 分 配 的 。 


将 handle 字 段 清 零 后 ， 即 把 该 线程 标记 为 不 存在 ， 等 待 其 结束 的 
各 个 线程 现在 可 以 恢复 执行 : 


(resume threads waiting for 


current's termination 


320) = 

while (!isempty(current->join)) { 
T t = get(&current->join); 
t->code = code; 
put(t, &ready); 

} 


调用 线程 的 退出 代码 将 复制 到 各 个 等 竺 线程 的 Thread_T 结 构 中 的 code 
字段 ， 因 为 接 下 来 将 释放 current 线 程 。 


如 果 只 有 两 个 线程 存在 而 其 中 之 一 处 于 join0 队 列 中 ， 现 在 可 以 恢 
复 该 等 待 线程 执行 。 


(resume threads waiting for 
current's termination 


320) += 
if (!isempty(join0) && nthreads == 2) { 
assert(isempty(ready) ); 
put(get(&joinO), &ready); 
} 


呆 言 有 助 于 检测 维护 nthreads 和 ready 时 可 能 出 现 的 错误 : 如 果 join0 非 
空 ， 而 nthreads 为 >， 那么 ready 必 定 为 空 ， 因 为 在 两 个 现存 线程 中 ， 一 
个 位 于 join0 中 ， 而 另 一 个 则 在 执行 Thread_exit 。 


Thread_exit 结 束 时 ， 会 将 nthreads 城 1， 然 后 调用 库 函 数 exit 或 者 运 
行 男 一 个 线程 : 


(run another thread or exit 


321) = 
if (--nthreads == 0) 
exit(code); 
else 


run(); 


Thread_alert 将 一 线程 线程 标记 “警报 一 待 决 > 状态， 这 是 通过 在 其 
Thread_T 结 构 中 设置 一 个 标志 并 将 该 线程 从 所 属 队 列 删 除 (如 果 有 所 
属 队 列 ) 实现 的 。 


(thread functions 


316) += 
void Thread_alert(T t) { 
assert(current); 
assert(t && t->handle == t); 
t->alerted = 1; 
if (t->inqueue) { 
delete(t, t->inqueue); 


put(t, &ready); 


(fields 


314) += 


int alerted; 


Thread_alert 上 自身 不 会 引发 Thread_Alerted 异 常 ， 因 为 调用 线程 与 { 
所 处 状态 是 不 同 的 。 线 程 必 须 自行 引发 Thread_Alerted 异 常 并 处 理 该 异 
和 常 ， 这 也 是 testalert 的 目的 : 


(static functions 


315) += 
static void testalert(void) { 
if (current->alerted) { 
current->alerted = 0; 


RAISE(Thread_Alerted); 


(data 


314) += 


const Except_T Thread_Alerted = { "Thread alerted" }; 


每 当 一 个 线程 即将 阻塞 ， 或 线程 在 阻塞 之 后 恢复 执行 时 ， 都 会 调 
用 testalert。 前 一 种 情况 ， 由 Thread_join 开 头 处 对 testalert 的 调用 说 明 。 
后 一 种 情况 ， 总 是 出 现在 对 run 的 调用 之 后 ， 可 以 由 代码 块 <wait for 
threadt to terminate 319> 和 <wait for all threads to terminate 320> 中 对 
testalert 的 调用 说 明 。 类 似 的 用 法 也 出 现在 Sem_wait 和 Sem_signal 中 ， 
参见 20.3.5 节 。 


20.3.3 ”线程 创建 和 上 下 文 切 换 


最 后 一 个 Thread 函 数 是 Thread_new。Thread_new 的 一 些 部 分 是 与 
机 器 相关 的 ， 因 为 它 与 _swtch 交 互 ， 但 该 函数 中 大 部 分 代码 是 几乎 与 
机 器 无 关 的 。Thread_new 有 4 个 任务 : 为 一 个 新 线程 分 配 资源 ， 初 始 化 


新 线程 的 状态 〈 使 之 仿佛 从 _swtch 返 回 并 继续 执行 ) ， 将 nthreads 加 
1， 将 新 线程 添加 到 ready。 


(thread functions 


316) += 
T Thread_new(int apply(void *), void *args, 
int nbytes, ...) { 


T t; 


assert(current); 
assert(apply); 
assert(args && nbytes >= 0 || args == NULL); 
if (args == NULL) 
nbytes = 0; 


(allocate resources for a new thread 


322) 


t->handle = t; 


(initialize 
t's state 
324) 

nthreads++; 


put(t, &ready); 


return t; 


在 这 个 对 Thread 接 口 的 单 处 理 絮 实现 中 ， 一 个 线程 需要 的 唯一 资 
源 是 Thread_T 结 构 和 一 个 栈 。Thread_T 结 构 和 一 个 16KB 的 栈 ， 通 过 对 
Mem 接 口中 ALLOC 的 一 次 调用 完成 : 


(allocate resources for a new thread 


322) 
{ 


323) 


323) 


int stacksize = (16*1024+sizeof (*t)+nbytes+15)& ~15; 
release(); 


(begin critical region 


TRY 
t = ALLOC(stacksize); 
memset(t, '\O', sizeof *t); 
EXCEPT (Mem_Failed) 
t = NULL; 
END_TRY; 


(end critical region 


if (t == NULL) 
RAISE(Thread_Failed) ; 


(initialize 


t's stack pointer 


323) 
} 


(data 


314) += 


const Except_T Thread_Failed = 


{ "Thread creation failed" }; 


该 代码 有 些 复杂 ， 因 为 它 必须 得 维护 几 个 不 变量 ， 其 中 最 重要 的 的 
是 : 对 Thread 接 口 函 数 的 调用 不 能 被 中 断 。 有 两 个 机 制 协作 来 维护 该 
不 变量 : 一 种 机 制 ， 处 理 当 控制 位 于 某 个 Thread 接 口 函数 中 时 出 现 的 
中 断 ， 如 下 文 所 述 。 另 一 种 机 制 ， 处 理 当 控 制 位 于 被 某 个 Thread 接 口 
函数 调用 的 例 程 中 时 出 现 的 中 断 ， 由 对 ALLOC 和 memset 的 调用 说 明 。 
此 类 调用 ， 都 被 用 于 标识 临界 区 的 代码 块 包围 (这 种 代码 块 分 别 对 
critical (HJN1 ALY) : 


(begin critical region 


323) = 


do { critical++; 


(end critical region 


323) = 


critical--; } while (0); 


(data 


314) += 


static int critical; 
如 20.3.4 节 所 示 ， 当 critical 非 零 时 发 生 的 中 断 被 名 略 。 


Thread_new 必 须 自行 捕获 Mem_Failed 异 常 ， 并 在 离开 临界 区 之 后 
引发 自身 的 异常 Thread_failed。 如 果 它 不 捕获 该 异常 ， 控 制 将 转移 到 
调用 者 的 异常 处 理 程序 ， 此 时 critical 已 经 被 设置 为 正 值 ， 不 会 再 被 减 
1 o 


Thread_new 假 定 栈 回 低地 址 方 癌 增长 ， 它 将 sp 字段 初始 化 为 如 图 
20-5 所 示 ， 顶 部 的 阴影 方 框 是 Thread_T 结 构 ， 底 部 是 args 的 副本 和 最 初 
的 栈 帧 ， 如 下 所 述 。 


(initialize 
t's stack pointer 


323) = 
t->sp = (void *)((char *)t + stacksize); 
while (((unsigned long)t->sp)&15) 


t->sp--,; 


如 上 述 代 码 块 对 stacksize 的 赋值 所 示 ，Thread_new 初 始 化 栈 指针 使 之 
对 齐 到 16 字 节 边 界 ， 这 样 做 可 以 适应 大 多 数 平台 。 大 多 数 机 器 要 求 栈 
对 齐 到 四 字 节 或 八字 节 边 界 ， 但 DEC ALPHA 要 求 16 字 节 对 齐 。 


Thread_new 从 调用 release 开 始 ，Thread_exit 也 调用 了 该 函数 。 
Thread_exit 不 能 释放 当前 线程 的 栈 ， 因 为 Thread_exit 正 在 使 用 该 栈 。 
此 它 将 线程 句柄 添加 到 freelist， 将 释放 操作 延迟 到 下 一 次 调用 


release: 


(static functions 


315) += 
static void release(void) { 
T t; 


(begin critical region 


323) 
while ((t = freelist) != NULL) { 
freelist = t->next; 
FREE(t); 
} 


(end critical region 


323) 
} 


release 设 计 得 过 于 通用 : freelist 只 有 一 个 元 素 ， 为 Thread_exit 和 
Thread_new#h & i] H release ° Wh R R £ Thread newii] Hrelease, HBA 


已 结束 线程 的 Thread_T 实 例 将 会 在 freelist 上 累积 起 来 。release 使 用 了 一 
个 临界 区 ， 因 为 它 调 用 了 Mem 接 口中 的 FREE ° 


接 下 来 ，Thread_new 初 始 化 新 线程 的 栈 ， 使 之 包含 从 args 开 始 的 
nbytes 字 节 的 一 个 副本 ， 并 设置 初始 栈 帧 ， 使 之 看 似 刚 刚 调用 过 
_swtch。 后 一 种 初始 化 是 与 机 絮 相 关 的 : 


(initialize 
t's state 


324) = 
if (nbytes > 0) { 
t->sp -= ((nbytes + 15U)& ~15)/sizeof (*t->sp); 


(begin critical region 


323) 
memcpy(t->sp, args, nbytes); 


(end critical region 


323) 
args = t->sp; 
} 
#if alpha 


{ (initialize an ALPHA stack 


335) } 


#elif mips 


{ (initialize a MIPS stack 


333) } 
#elif sparc 


{ (initialize a SPARC stack 


326) } 
#else 
Unsupported platform 


#endif 


Al20-5 426 HAE, SRT SLE ee OER ENGR: 深 色 
ERR T Splat RA Belt, nee BAS? ee argsAy al AX © thread.cAil 
swtch.s 征 本 书 中 仅 有 的 使 用 条 件 编译 的 模块 。 


图 20-5 Thread TI 结构 与 栈 的 分 配 


在 列 出 _swtch 汇 编 语言 实现 的 纲要 之 后 ， 栈 初始 化 变 得 更 


解 : 


(swtch.s 


y= 
#if alpha 


(ALPHA swtch 


334) 


(ALPHA startup 


334) 
#elif sparc 


(SPARC swtch 


325) 


(SPARC startup 
326) 
#elif mips 


(MIPS swtch 


332) 


(MIPS startup 


333) 


N 
合 


易 理 


#else 
Unsupported platform 


#endif 


_swtch(from, to) 必 须 保存 from 的 状态 ， 恢 复 to 的 状态 ， 并 使 to 从 最 近 一 
次 对 _swtch 的 调用 返回 ， 以 便 使 fo 继续 执行 。 调 用 约定 保存 了 大 部 分 
状态 ， 因 为 它们 通常 规定 在 不 同调 用 之 间 必 须 保 存 某 些 寄存 絮 的 值 ， 
而 一 些 机 器 状态 信息 没有 保存 ， 如 条 件 码 (condition code register, BẸ 
处 理 器 中 的 状态 寄存 器 ， 亦 称 为 status register 或 flag register) 。 因 此 
_swtch 只 保存 其 所 需 ， 而 调用 约定 又 没有 你 存 的 那些 状态 ， 例 如 返回 
地 址 ， 它 可 能 将 这 些 值 保存 到 调用 线程 的 栈 上 。 


对 应 SPARC 体 系 结构 的 _swtch 实 现 可 能 是 最 容易 的 ， 因 为 SPARC 
调用 约定 给 每 个 画 数 都 提供 了 自身 的 “寄存 器 窗口 ” (register 
window) ， 从 而 保存 了 所 有 的 寄存 器 ，_swtch 唯 一 需要 保存 的 寄存 器 
是 栈 帆 指针 (frame pointer) 和 返回 地 址 。 


(SPARC swtch 


325) = 

.global __swtch 

.align 4 

.proc 4 
1 __Sswtch:save %sp, -(8+64),%Sp 
2 st %fp, [%sp+64+0] ! 保存 from 的 帧 指针 
3 st %i7, [%spt64+4] ! 保存 from 的 返回 地 址 
4 ta 3 ! 刷 出 from 的 寄存 器 
5 st %sp, [%iO] ! 保存 from 的 栈 指针 


[%i1], %sp 
! 加 载 to 的 栈 指针 
7 1d [%sp+64+0],%fp ”1! 恢复 to 的 帧 指针 
8 1d [%sp+64+4],%i7  ! 恢复 to 的 返回 地 址 
9 ret ! 使 to 继续 执行 
10 restore 


上 述 的 行 号 标识 了 代码 的 各 行 ， 以 便 下 文 解释 ， 这 些 行 号 不 是 汇编 语 
言 代码 的 一 部 分 。 按 照 惯 例 ， 汇 编 语言 名 称 以 一 个 下 划 线 作为 前 绥 ， 
此 _swtch 在 SPARC 平 台 的 汇编 语言 中 写作 _swtch 。 


图 20-6 给 出 了 _swtch 的 栈 帧 布局 ， 所 有 的 SPARC 栈 帧 ， 在 栈 巾 顶 
部 都 至 少 有 64 子 广 ， 供 操作 系统 在 必要 时 保存 函数 的 寄存 器 窗口 。 在 
_swtch 的 栈 帧 长 度 为 72 字 节 ，64 子 市 之 外 余下 的 两 个 字 ， 分 别 保存 了 
帧 指针 和 返回 地 址 。 


%sp 


保存 的 帧 指针 %sp+64 


返回 地 址 %sp+68 


图 20-6 ”swtch 的 栈 帧 布局 


_swtch 中 的 第 1 行为 _ swtch 分 配 了 一 个 栈 帧 。 第 2 行 和 第 3 行 保存 
from 的 帧 指针 (%fp) 和 返回 地 址 (%i7) ， 二 者 分 别 保存 到 新 帧 的 第 
十 七 个 和 第 十 八 个 32 位 字 ( 偏 移 量 64 和 68 处 ) 。 第 4 行进 行 了 一 次 系统 
调用 ， 以 便 将 from 的 寄存 器 窗口 “ 刷 出 ”到 栈 上 ， 为 用 to 的 寄存 絮 窗 口 
继续 执行 ， 这 样 做 是 必需 的 。 这 个 调用 令 人 遗憾 : 对 用 户 级 线程 来 
说 ,一 个 预先 推定 的 好 处 是 ， 上 下 文 切 换 不 需要 内 核 干 预 。 但 在 
SPARC 上 ， 只 有 内 核能 够 刷 出 寄存 噩 窗口。 


第 5 行将 from 的 栈 指 针 保 存 到 其 Thread_T 结 构 中 的 sp 字段 。 这 个 指 
令 说 明了 为 什么 该 字段 需要 放置 在 结构 的 头 部 :该 代码 与 Thread_T 结 
构 实 例 的 长 度 和 其 他 字段 的 位 置 都 是 无 关 的 。 第 6 行 是 斜体 ， 因 为 它 是 
实际 的 上 下 文 切换 。 该 指令 加 载 to 的 栈 指针 到 %sp 中 ( 栈 指针 寄存 
at) 。 此 后 ，_swtch 是 在 to 的 栈 上 执行 。 第 7 行 和 第 8 行 分 别 恢复 to 的 帧 
指针 和 返回 地 址 ， 因 为 %sp 现 在 指 回 to 的 栈 顶 。 第 9 行 和 第 10 行 构成 了 
第 规 的 函数 返回 指令 序列 ， 控 制 返回 到 to 线程 上 一 次 调用 _swtch 之 后 
的 地 址 继续 执行 。 


Thread_new 必 须 为 _swtch 创 建 一 个 栈 帧 ， 以 便 其 他 线程 对 _swtch 
的 调用 能 够 正确 地 返回 ， 从 而 开始 新 线程 的 执行 ， 该 执行 必须 调用 
apply。 图 20-7 给 出 了 Thread_new 建 立 的 构造 : _swtch 的 栈 帧 位 于 栈 
顶 ， 其 下 的 栈 帧 用 于 下 述 局 动 代码 。 


(SPARC startup 


326) = 


.global _ start 


„align 4 


.proc 4 
1 __start:ld [%Sp+64+4] ,%00 
2 ld [%sp+64], %01 
3 call %o1; nop 
4 call _Thread_exit; nop 
5 unimp 0 


.global __ENDMONITOR 
__ ENDMONITOR : 


_swtch 栈 帧 中 的 返回 地 址 指 同 _start， 局 动 代 码 的 栈 帧 包含 apply 和 
args， 如 图 20-7 所 示 。 在 第 一 次 从 _swtch 返 回 时 ， 控 制 转移 到 _start QC 
编 代 码 中 的 _start) 。 启 动 代码 中 的 第 1 行将 args 加 载 到 %o0 中 ， 该 寄存 
需 在 SPARC 调 用 约定 中 用 于 传递 第 一 个 参数 。 第 2 行将 apply 的 地 址 加 
载 到 %ol 中 ， 该 寄存 絮 在 其 他 情况 下 并 不 使 用 ， 第 3 行 对 apply 进 行 了 
间接 调用 。 如 采 apply 返 回 ， 其 退出 代码 位 于 %o0 中 ， 该 值 将 传递 给 
Thread_exit，Thread_exit 从 不 返回 。 第 5 行 应 该 从 不 执行 ， 如 果 执 行 ， 
它 将 导致 异常 。 ENDMONITOR 将 在 下 文 解释 。 


_swtch 和 _start 中 的 15 行 汇编 语言 ， 就 是 SPARC 体 系 结构 上 所 有 必 
需 的 东西 ， 如 图 20-7 所 示 ， 为 新 线程 初始 化 栈 的 工作 完全 可 以 用 C 语 言 
完成 。 两 个 栈 帧 是 目 底 同上 建立 的 ， 如 下 。 


(initialize a SPARC stack 
326) = 


1 int i; void *fp; extern void _start(void); 


2 for (i = 0; i < 8; itt) 


*--t->sp = 0; 
*--t->sp = (unsigned long)args; 
*--t->sp = (unsigned long)apply; 
t->sp -= 64/4; 
fp = t->sp; 


*--t->sp = (unsigned long) start - 8; 


3 
4 
5 
6 
7 
8 
9 


10 t->sp -= 64/4; 


16 字 
_swtch 的 栈 帧 


*--t->sp = (unsigned long)fp; 


图 20-7 SPARC 架构 上 线程 启动 代码 和 初始 _swtch 的 栈 帧 


第 2 行 和 第 3 行 创建 局 动 栈 帧 底部 的 八 个 字 。 第 4 行 和 第 5 行将 args 
的 值 和 apply 投 入 栈 中 ， 第 6 行 在 启动 栈 帧 的 项 部 分 配 了 64 个 字 亡 。 此 
时 的 栈 指针 ， 即 为 必须 通过 _swtch 恢 复 的 帧 指针 ， 因 此 第 7 行将 该 值 保 
存 到 fp。 第 8 行将 返回 地 址 压 栈 ， 即 %i7 的 保存 值 。 返 回 地 址 是 _start 之 


前 八 个 字 广 ， 因 为 SPARC 架 构 中 的 ret 指 令 在 迟 回 时 会 同 %i7 中 的 地 址 
加 8。 第 9 行将 % 印 的 保存 值 压 栈 ， 第 10 行 在 _swtch 栈 帧 顶部 分 配 64 字 
T, RWA TERIER ° 


UU FRapplye — NA H AN H SANA EN, HAOSA 00 
#)%05 A Fé ae PA ERE IRE, fe Pal A a AY is 64 £1188 
处 ， 即 在 局 动 代码 的 栈 帧 中 。 第 2 行 和 第 3 行为 此 分 配 了 空间 ， 并 额外 
增加 了 8 字 季 ， 使 得 栈 指针 仍然 能 够 对 齐 到 8 字 世 边界 ， 这 是 SPARC 硬 
件 的 要 求 。 


_swtch 和 _start 的 MIPS 和 ALPHA 版 本 ， 将 在 20.3.6 节 讲述 。 


20.3.4 抢占 


抢占 等 效 于 周期 性 地 隐 式 调用 Thread_pause。Thread 中 对 抢占 的 实 
现 是 UNIX 相 关 的 ， 其 中 设 定 了 一 个 周期 为 50 唉 秒 的 “虚拟 * 时 钟 中 靳 ， 
由 中 上 断 处 理 程 序 来 执行 相当 于 Thread_pause 的 代码 。 该 定时 右 是 虚拟 
的 ， 因 为 仅 当 进程 执行 时 ， 该 时 钟 才 运转 。Thread_init 使 用 UNIX 信 和 号 
设施 来 初始 化 时 钟 中 断 。 第 一 步 是 将 中 断 处 理 程序 关联 到 虚拟 定时 器 
言 号 SIGVTALRML 


(initialize preemptive scheduling 


328) = 
{ 
struct sigaction sa; 


memset(&sa, '\O', sizeof sa); 


sa.sa_handler = (void (*)())ainterrupt; 
if (Sigaction(SIGVTALRM, &sa, NULL) < 0) 
return 0; 


j 


sigaction 结 构 有 三 个 字段 : sa_handler 是 SIGVTALRM 信 和 号 发 生 时 要 调 
用 的 函数 的 地 址 ，sa_mask 是 一 个 信号 集合 ， 指 定 了 在 中 断 处 理 期 间 应 
该 阻塞 的 信号 (包括 SIGVTALRM 在 内 ) ，sa_flags 提 供 了 特定 于 信和 号 
的 选项 。 如 下 所 述 ，Thread_init 将 sa_handler 设 置 为 interrupt， 并 将 其 他 


字段 清 零 。 


sigaction 了 芳 数 是 用 于 将 处 理 程序 天 联 到 信和 号 的 POSIX 标 准 函 数 。 大 
多 数 UNIX 变 体 和 一 些 其 他 操作 系统 (如 Windows NT) ， 都 支持 
POSIX 标 准 。 该 范 数 的 三 个 参数 ， 分 别 给 出 了 信号 的 符号 名 、 指 癌 
sigaction 结 构 实例 (用 以 修改 对 信号 的 处 理 ) 的 指针 和 指向 另 一 个 
sigaction 结 构 实 例 (用 于 获取 此 前 对 该 信号 的 处 理 设置 ) 的 指针 。 当 
第 三 个 参数 为 NULL 时 ， 不 会 返回 此 前 对 该 信号 处 理 的 设置 。 


当 对 该 信号 的 处 理 设置 已 经 按 第 二 个 参数 的 指定 修改 完成 时 ， 
sigaction A 20% IO, APM IE]-1 ° 4sigactioni El-18f, Thread_initi 
回 0， 表 示 线 程 系统 不 文 持 抢占 调度 。 


在 信号 处 理 程序 束 位 后 ， 将 初始 化 虚拟 定时 器 : 


(initialize preemptive scheduling 


328) += 
{ 


struct itimerval it; 


it.it_value.tv_sec = 0; 
it.it_value.tv_usec = 50; 
it.it_interval.tv_sec = 0; 


it.it_interval.tv_usec = 50; 
if (setitimer(ITIMER_VIRTUAL, &it, NULL) < 0) 
return 0; 


Í 


itimerval 结 构 中 的 it_value 字 段 ， 按 秒 (tv_sec) 和 毫秒 (tv msec) 为 
单位 ， 指 定 了 到 下 一 次 时 钟 中 断 还 有 多 长 时 间 。it_interval 字 段 中 的 值 
用 于 在 定时 器 到 期 时 重 置 it_value 字 上段。Thread_init 将 时 钟 中 断 设 置 为 
BERS OSE BY ACE IK ° 


setitimer HR (R esigaction WwW: 其 第 一 个 参数 指定 了 影响 哪个 
定时 器 的 行为 (因为 还 有 一 个 实时 定时 器 ) ， 第 二 个 参数 是 一 个 指向 
itimerval 结 构 实 例 (其 中 包含 了 新 的 定时 器 值 ) 的 指针 ， 第 三 个 参数 
也 是 一 个 指向 itimerval 结 构 实例 〈 用 于 获取 此 前 的 定时 器 设置 ) 的 指 
针 (如 有 果 不 需要 此 前 的 设置 ， 则 指针 为 NULL) 。 当 定时 器 设置 成 功 


时 ，setitimer 退 回 0， 否 则 返回 -1。 

当 虚 拟定 时 融 到 期 时 ， 将 调用 信号 处 理 程序 interrupt。 当 中 上 断 绪 
束 ， 即 interrupt 返 回 时 ， 定 时 恬 重 新 开始 。 除 非 当 前 线程 处 于 临界 区 
H, By Ah SES Thread BY Sem HAN, All interrupt HUT WY ARA 5 


Thread_pauses# 3 ° 


(static functions 


315) += 
static int interrupt(int sig, int code, 

struct sigcontext *scp) { 

if (critical || 
scp->sc_pc >= (unsigned long) MONITOR 

&& SCp->Ssc_pc <= (unsigned long) ENDMONITOR) 
return 0; 

put(current, &ready); 

Sigsetmask(scp->sc_mask); 

run(); 

return 0; 


Í 


sig 参 数 承 载 的 是 信号 号 码 ，code 为 某 些 信号 提供 了 额外 的 数据 。scp 参 
数 是 一 个 指向 sig-context 结 构 的 指针 ， 结 构 的 sc_pc 字 段 提 供 了 发 生 中 
WAT HFS STP eas ° thread.ch 2 HAL MONITOR 开始 ， 而 swtch.s 中 的 
汇编 语言 代码 以 全 局 符号 _ENDMONITOR 的 定义 结束 。 如 果 目 标 文件 
载 入 程序 的 顺序 是 swtch.s 的 目标 码 在 thread.c 的 目标 码 之 后 ， 那 么 对 于 
被 中 断 的 线程 来 说 ， 如 果 其 指令 计数 器 位 于 _MONITOR 和 
_ENDMONITOR 之 间 ， 那 么 该 线程 当时 正在 执行 某 个 Thread 或 Sem 画 
数 。 因 而 ， 如 果 critical 为 非 零 值 ， 或 scp->sc_pc 位 于 _MONITOR 和 
_ENDMONITOR 之 间 ， 那 么 interrupt 将 返回 而 忽略 时 钟 中 断 。 否 则 ， 
interrupt 将 当前 线程 置 于 ready 队 列 上 ， 而 运行 男 一 个 线程 。 


对 sigsetmask 的 调用 ， 将 恢复 此 前 被 中 断 停 用 的 信号 (由 信号 集合 
scp->sc_mask 发 出 ) ， 该 集合 通常 只 包含 SIGVTALRM 信 和 号。 该 调用 是 
必需 的 ， 接 下 来 即将 运行 的 线程 可 能 不 是 通过 中 上 断 挂 起 的 。 例 如 ， 假 


定 线程 A 显 式 调用 了 Thread_pause 而 挂 起 ， 线 程 B 继 续 执行 。 在 时 钟 中 
断 发 生 时 ， 控 制 进入 到 interrupt， 此 时 SIGVTALRM 信 和 号 已 经 被 禁用 。 
BB 在 interrupt 中 重新 启用 了 SIGVTALRM 信 和 号， 并 放弃 处 理 絮 给 线程 
A o 


如 果 忽 略 对 sigsetmask 的 调用 ， 线 程 A 恢 复 执行 时 ，SIGVTALRM 
言 号 将 是 被 禁用 的 ， 因 为 A 是 通过 Thread_pause 挂 起 的 ， 而 不 是 通过 
interrupt。 在 下 一 次 发 生 时 钟 中 断 时 ，A 挂 起 而 B 继 续 执行 。 在 这 种 情 
况 下 ， 调 用 sigsetmask 是 多 余 的 ， 因 为 线程 B 释 放 了 中 断 ， 这 将 恢复 信 
号 掩 码 Thread_T 结 构 中 的 一 个 标志 可 用 于 避免 对 sigsetmask 的 不 必要 的 
调用 。 


中 上 断 处 理 程序 的 第 二 个 和 后 续 的 参数 是 系统 相关 的 。 大 多 数 UNIX 
变 体 都 支持 上 述 的 code 和 和 scp 参数， 但 其 他 POSIX 兼 容 系 统 可 能 同 处 理 
程序 提供 不 同 的 参数 。 


20.3.5 一 般 信号 量 


在 四 个 Sem 函 数 中 ， 创 建 和 初始 化 信号 量 是 比较 容易 的 两 个 : 


(sem functions 
330) = 
T *Sem_new(int count) { 


T *s,; 


NEW(s); 


Sem_init(s, count); 


return s; 


void Sem_init(T *s, int count) { 
assert(current); 
assert(s); 
s->count = count; 


s->queue = NULL; 


Sem_wait#lSem_signal tL P¢ fai #4, (ATIC TS KR E EREA 
FAVS, FARM ° (FS SBP EMS Pet: 


Sem_wait(s): while (s->count <= 0) 


--S->count,; 


Sem_signal(s): ++s->count; 


这 些 语义 会 导致 简 洛 、 正 确 ， 但 并 不 公平 的 实现 ， 如 下 所 示 ; 这 些 实 
现 也 忽略 了 警报 一 待 决 状 态 和 已 检查 的 运行 时 错误 。 


void Sem_wait(T *s) { 
while (s->count <= 0) { 
put(current, &s->queue); 


run(); 


--S->count,; 


void Sem_signal(T *s) { 
if (++s->count > 0 && !isempty(s->queue) ) 
put(get(&s->queue), &ready); 
} 


这 些 实 现 是 不 公平 鸭 ， 因 为 它们 人 允许“ 饥 俄 发生。 假定 s 初 始 化 为 1， 
二 线程 A 和 B 都 执行 下 述 代码 : 


for (77) { 


Sem_wait(s); 


Sem_signal(s); 


} 


假定 线程 A 处 于 省 略 号 表示 的 临界 区 中 ， 而 B 处 于 s->queue 队 列 中 。 当 
A 调用 Sem_signal 时 ， 线 程 B 移 动 到 就 绪 队 列 。 如 果 B 继 续 执 行 ， 其 对 
Sem_wait 的 调用 将 返回 ， 而 B 将 进入 临界 区 。 但 A 可 能 先 调用 
Sem_wait， 并 获取 临界 区 。 如 果 人 A 在 临界 区 内 部 执行 时 被 抢占 ， 那 么 B 
恢复 执行 但 发 现 s->count 为 0， 因 而 又 移 回 s->queue 队 列 上 。 如 果 没 有 
某 种 外 部 干预 ，B 可 能 在 ready 和 s->queue 两 个 队列 之 间 无 限 循环 下 
去 ， 如 有 果 有 更 多 线程 竞争 s， 那 么 造成 饥饿 的 可 能 性 更 高 。 


一 种 解决 方案 是 ， 当 一 个 线程 从 s->queue 移 动 到 ready 时 ， 要 确保 
该 线程 获取 到 信号 量 。 这 种 方案 的 实现 ， 可 以 通过 在 s->count 即 将 从 0 
变 为 1 上 时， 将 一 个 线程 从 s->queue 移 动 到 ready， 但 实际 上 并 不 对 s- 


>count 执 行 加 1 控 作 。 类 似 地 ， 当 一 个 被 阻塞 的 线程 从 Sem_wait 中 恢复 
执行 时 ， 也 并 不 对 s->count 执 行 减 1 操作 。 


(sem functions 


330) += 
void Sem_wait(T *s) { 
assert(current); 
assert(s); 
testalert(); 
if (s->count <= 0) { 
put(current, (Thread_T *)&s->queue) ; 
run(); 
testalert(); 
} else 


--S->count,; 


void Sem_signal(T *s) { 
assert(current); 
assert(s); 
if (s->count == 0 && !isempty(s->queue)) { 
Thread_T t = get((Thread_T *)&s->queue); 
assert(!t->alerted); 
put(t, &ready); 


} else 


++s->count; 


} 


4 s->count H 0 H 28 FEC BI] WAIT, CHRR BE REINA A 
量 ， 因 为 由 于 s->count 为 0， 其 他 调用 Sem_wait 的 线程 将 一 直 处 于 阻塞 
状态 。 但 对 于 一 般 信 号 量 来 说 ， 线 程 C 未 必 能 先 获 取 到 信和 号 量 : 如 果 D 
在 C 再 次 运行 之 前 调用 Sem_signal， 那 么 束 制 造 了 一 个 “时 间 窗 口 >， 使 
得 另 一 个 线程 可 能 在 C 之 前 获取 到 信号 量 ， 当 然 线 程 C 也 会 获取 到 该 信 


d 


di 
ial 


警报 一 待 决 状 态 ， 可 能 使 得 Sem_wait 难 于 理解 。 如 果 在 s 上 阻塞 的 
一 个 线程 被 设置 为 警报 一 待 决 状态 ， 那 么 该 线程 在 Sem_wait 中 对 run 的 
调用 将 立即 返回 ， 同 时 设置 其 alerted 标 志 。 在 这 种 情况 下 ， 该 线程 是 
被 Thread_Alert (而 非 Sem_signal) 移 到 ready 队 列 的 ， 因 此 其 恢复 执行 
与 s->count 的 值 无 天。 该 线程 必须 使 s 处 于 无 扰动 状态 ， 并 清除 目 英 的 
alerted 标 志 ， 而 后 引发 Thread_Alerted 异 常 。 


20.3.6 MIPS 和 ALPHA 上 的 上 下 文 
切换 


_swtch 和 _start 的 MIPS 和 ALPHA 版 本 ， 与 其 SPARC 版 本 相 比 ， 在 
设计 上 是 类 似 的 ， 但 细节 上 是 不 同 的 。 


_swtch 的 MIPS 版 本 如 下 所 示 。 其 栈 帆 长 上 度 为 88 字 广 。 通 过 sw 
$31,48+36($sp) 实 现 的 存储 指令 ， 保存 了 “由 调用 者 保存 ”的 浮 点 与 整数 
寄存 器 ， 寄 存 絮 31 包 含 了 返回 地 址 。 用 和 斜体 字 印 刷 的 指令 通过 加 载 to 


的 栈 指针 来 切换 上 下 文 ， 搂 下 来 的 加 载 指令 恢复 了 线程 to“ 由 调用 者 保 


存 "的 寄存 器 。 


(MIPS swtch 


332) = 

„text 

.globl _swtch 

.align 2 

„ent _Swtch 

.Set reorder 

_swtch: .frame 
subu 
. fmask 
s.d 
s.d 
s.d 
s.d 
s.d 
s.d 
.mask 
SW 
SW 
SW 
SW 
SW 
SW 


$sp,88,$31 


$sp, 88 

Oxf fFO0000, -48 
$f20,0($sp) 
$f22,8($sp) 
$f24,16($sp) 
$f26, 24($sp) 
$f28, 32($sp) 
$f30, 40($sp) 
OxcOffO000, -4 
$16, 48+0($sp) 
$17, 48+4($sp) 
$18, 48+8($sp) 
$19, 48+12($sp) 
$20, 48+16($sp) 
$21, 48+20($sp) 


e e e HKH KH H 
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$22,48+24($sp) 
$23, 48+28($sp) 
$30, 48+32($sp) 
$31, 48+36($sp) 
$sp,0($4) 
$sp,0($5) 


$F20,0($sp) 
$f22,8($sp) 
$f24,16($sp) 
$f26,24($sp) 
$f28, 32($sp) 
$f30, 40($sp) 
$16, 48+0 ($sp) 
$17,48+4($sp) 
$18, 48+8($sp) 
$19, 48+12($sp) 
$20, 48+16($sp) 
$21, 48+20($sp) 
$22,48+24($sp) 
$23, 48+28($sp) 
$30, 48+32($sp) 
$31, 48+36($sp) 
$sp, 88 

$31 


这 里 是 MIPS 的 线程 启动 代码 : 


(MIPS startup 


333) = 
.globl _start 


_start: move $4, $23 # 寄存 器 23 保 存 args 
move $25, $30 # 寄存 器 30 保 存 apply 
jal $25 
move $4, $2 # Thread_exit(apply(p) ) 
move $25, $21 # 寄存 器 21 保 存 Thread_exit 
jal $25 
syscall 

.end _swtch 


.globl _ENDMONITOR 
_ENDMONITOR: 


该 代码 与 Thread_new 中 与 MIPS 相 关 的 部 分 协作 , Thread_new 将 
Thread_exit、args、apply 保 存 到 栈 帧 中 适当 的 位 置 ， 以 便 使 之 分 别 加 
载 到 寄存 器 21、23、30。apply 的 第 一 个 参数 通过 寄存 侣 4 传递 ， 其 结 
宁 通 过 寄存 器 2 返回 。 局 动 代码 并 不 需要 栈 帧 ， 因 此 Thread_new 只 建立 
了 _swtch 的 栈 帧 ， 但 它 确 实在 栈 中 _swtch 栈 帧 之 下 的 位 置 分 配 了 4 个 
字 ， 以 便 处 理 apply 需 要 可 变数 目 参 数 的 情形 。 


(initialize a MIPS stack 


333) = 


extern void _start(void); 


t->Sp -= 16/4; 

t->sp -= 88/4; 

t->sp[(48+20)/4] = (unsigned long)Thread_exit; 
t->sp[(48+28)/4] = (unsigned long)args; 
t->sp[(48+32)/4] = (unsigned long)apply; 
t->sp[(48+36)/4] = (unsigned long) start; 


Thread_exit 的 地 址 通过 寄存 器 21 传 递 ， 因 为 MIPS 线 程 启动 代码 必须 是 
位 置 无 关 的 。 启 动 代码 将 args 的 地 址 复制 到 寄存 器 4， 并 在 对 应 的 调用 

(jal 指 令 ) 前 将 apply 和 Thread_exit 的 地 址 复制 到 寄存 器 25， 因 为 这 是 
MIPS 架 构 上 与 位 置 元 关 的 调用 指令 序列 的 要 求 。 


ALPHA 版 本 的 代码 块 与 对 应 的 MIPS 代 码 块 类 似 。 


(ALPHA swtch 


334) = 
.globl _swtch 
„ent _swtch 
_swtch: lda $sp, -112($sp) # 分 配 _swtch 的 栈 帧 
,frame $sp,112,$26 
. fmask Ox3f0000, -112 


stt $f21, O($sp) # 保存 from 的 寄存 器 
stt $f20, 8($sp) 
stt $f19,16($sp) 
stt $f18,24($sp) 
stt $f17, 32($sp) 


stt $f16, 40($sp) 


.mask 


0x400fe00, -64 


stq $26, 48+0($sp) 
stq $15, 48+8($sp) 
stq $14, 48+16($sp) 
stq $13, 48+24($sp) 
stq $12, 48+32($sp) 
stq $11, 48+40($sp) 
stq $10, 48+48($sp) 
stq $9, 48+56($sp) 
.prologue 0 

stq $sp, 0($16) 

ldq $sp,0($17) 


# 恢复 to 的 栈 指 针 


ldt 
ldt 
ldt 
ldt 
ldt 
ldt 
ldq 
ldq 
ldq 
ldq 
ldq 
ldq 
ldq 


$f21,0($sp) 
$f20,8($sp) 
$f19,16($sp) 
$f18,24($sp) 
$f17, 32($sp) 
$f16, 40($sp) 
$26, 48+0($sp) 
$15, 48+8($sp) 
$14, 48+16($sp) 
$13, 48+24($sp) 
$12, 48+32($sp) 
$11, 48+40($sp) 
$10, 48+48($sp) 


# 保存 from 的 栈 指针 


# 恢复 to 的 寄存 器 


ldq $9, 48+56($sp) 
lda $sp,112($sp) # 释放 栈 帧 
ret $31, ($26) 
.end _swtch 
(ALPHA startup 
334) = 
.globl _start 
.ent _Start 
_start: ,frame $sp,0,$26 
.mask 0x0, 0 
prologue 0 
mov $14, $16 # 寄存 器 14 保 存 args 
mov $15, $27 # 寄存 器 15 保 存 apply 
jsr $26, ($27) # 调用 apply 
ldgp $26,0($26) # 重新 加 载 全 局 指针 
mov $0, $16 # Thread_exit(apply(args) ) 
mov $13, $27 # 寄存 器 13 保 存 Thread_exit 地 址 
jsr $26, ($27) 
call_palo 
.end _start 


.globl _ENDMONITOR 


_ENDMONITOR: 


(initialize an ALPHA stack 


335) = 
extern void _start(void); 


t->sp -= 112/8; 


ct 


->sp[(48+24)/8] = (unsigned long)Thread_exit; 


ct 


->sp[(48+16)/8] = (unsigned long)args; 


ct 


->sp[(48+ 8)/8] = (unsigned long)apply; 


ct 


->sp[(48+ 0)/8] = (unsigned long) start; 


20.4 扩展 阅读 


[Andrews，1991] 是 一 本 关于 并 发 程序 设计 的 综合 教科 书 。 它 摘 述 
了 与 并 行 系统 编程 相关 的 大 多 数 问题 及 其 答案 ， 包 括 同步 机 制 、 消 居 
传递 系统 和 远程 过 程 调 用 。 其 中 也 描述 了 四 种 编程 语言 中 为 并 发 程序 
设计 而 专门 设计 的 特性 。 


Thread 基 于 Modula-3 的 线程 接口 ， 后 者 又 源 自 SRC (DECH 
System Research Center) 所 开发 的 Modula-2+ 中 的 线程 设施 。[Nelson,， 
1991] 中 的 第 4 章 是 线程 编程 方面 的 寻 引 ， 由 Andrew Birrell 撰 写 。 任 何 
编写 基于 线程 的 应 用 程序 的 人 ， 都 会 得 益 于 该 文 。 大 多 数 现代 操作 系 
统 中 的 线程 设施 ， 都 在 某 些 方面 是 基于 SRC 所 开发 的 接口 。 


[Tanenbaum，1995] 综 述 了 用 户 级 和 内 核 级 线程 的 设计 问题 ， 并 给 
出 了 实现 纲要 。 其 案例 研究 描述 了 三 个 操作 系统 (Amoeba、Chorus 和 
Mach) 中 的 线程 软件 包 ， 以 及 OSF 的 DCE 中 的 线程 。 在 我 们 了 解 到 
DCE 时 ，DCE 最 初 运 行 在 UNIX 的 OSF/1 变 体 上 ， 但 现在 可 用 于 大 多 数 
操作 系统 ， 包 括 OpenVMS、OS/2、Windows NT 和 Windows 95 ° 


[Kleiman, Shah and Smaalders, ，1996] 详 述 了 POSIX 线 程 (IEEE, 
1995) 和 Solaris 2 线程 。 这 本 书面 向 实践 ， 其 中 有 一 章 内 容 阐 述 线程 和 
库 之 间 的 交互 ， 包 括 很 多 使 用 线程 将 算法 并 行 化 的 例子 ， 包 括 排序 以 
及 链表 /队列 / 哈 希 表 的 线程 安全 实现 。 


sieve 改 编目 [McIlroy，1968] 用 于 说 明 协 程 程序 设计 的 一 个 类 似 例 
子 ， 协 程 类 似 于 非 抢 占线 程 。 协 程 出 现在 几 种 语言 中 ， 有 时 名 称 也 不 
| 同 。Icon 的 coexpression 就 是 一 个 例子 [Wampler and Griswold, 1983] ° 
[Marlin，1980] 综 述 了 许多 原来 的 协 程 建 议 方案 ， 并 描述 了 在 Pascal 变 
体 中 的 模型 实现 。 


通道 基于 CSP (communicating sequential processes)  ([Hoare, 

1978]) 。 线 程 和 通道 也 出 现在 Newsqueak 中 ， 这 是 一 种 应 用 性 的 并 发 
语言 。CSP 和 Newsqueak 中 的 通道 比 Chan 提 供 的 更 为 强大 ， 因 为 这 两 
种 语言 提供 的 设施 ， 可 用 于 在 多 个 通道 上 以 非 确定 性 方式 等 待 。 
[Pike，1990] 探 讨 了 一 个 Newsdqueak 解 释 需 的 实现 中 的 精彩 之 处 ， 并 描 
述 了 使 用 随机 数 来 改变 抢占 的 发 生 频 度 ， 这 使 得 线程 调度 具有 非 确定 
性 (但 比较 公平 。[Mcllroy，1990] 详 述 了 一 个 Newsqueak 程 序 ， 该 
程序 将 几 级 数 当做 数据 流 处 理 ， 其 方法 在 本 质 上 类 似 于 sieve。 


Newsqueak 已 经 用 于 实现 窗口 系统 ， 这 例证 了 能 从 线程 受益 的 那 
些 交 互 式 应 用 。NeWS 窗 口 系统 [Gosling, Rosenthal and Arden ，1989] 是 
另 一 个 用 市 有 线程 的 语言 编写 的 窗口 系统 的 例子 。NeWS 系 统 的 核心 
是 一 个 PostScript 解 释 器 ， 其 用 于 渲染 文本 和 图 像 。NeWS 窗 口 系统 
身 的 大 部 分 是 用 PostScript 变 体 编写 的 ， 该 语言 包括 了 非 抢 占线 程 扩 
展 o 


EAT UIs a Concurrent ML [Reppy，1997] 文 持 线程 和 同步 通道 ， 
这 与 Chan 提 供 的 功能 很 相似 。 在 非 命 令 式 (nonimperative) 语言 中 实 
现 线程 ， 通 常 比 基 于 栈 的 命令 式 语言 更 为 容易 。 例 如 ， 在 Standard ML 
中 没有 栈 ， 因 为 被 调用 者 的 生存 期 可 能 超过 调用 者 ， 因 此 不 需要 什么 
特别 的 设置 来 文 持 线 程 。 因 而 ，Concurrent ML 是 完全 用 Standard ML 
实现 的 。 


Thread 和 Sem 实 现 中 使 用 MONITOR 和 _ENDMONITOR 画 数 来 划 
分 代码 边界 的 想法 ， 来 自 于 [Cormack，1988]， 其 中 描述 了 用 于 UNIX 
线程 的 一 个 类 似 但 稍 有 不 同 的 接口 。[Stevens，1992] 的 第 10 章 全 面 地 
前 述 了 信号 和 信和 号 处 理 程 序 ， 其 中 描述 了 不 同 UNIX 变 体 和 POSIX 标 准 
之 间 的 差异 。 


20.5 “习题 


20.1 二 值 信 号 量 通常 称 之 为 锁 或 互 不 量 ， 是 最 流行 的 信号 量 类 
型 。 为 锁 设 计 一 个 单独 的 接口 ， 其 实现 比 一 般 信 号 量 更 简单 。 请 注意 


警报 一 待 决 状态 。 


20.2 ”假定 线程 A 锁定 x 然后 笑 试 锁定 y， 线 程 B 锁 定 y 然 后 笑 试 锁 
定 x。 这 些 线程 将 陷入 死 锁 : 在 B 解 锁 y 之 前 A 不 能 继续 执行 ， 在 A 解锁 
x 之 前 B 不 能 继续 执行 。 扩 展 前 一 习题 对 锁 的 实现 ， 以 检测 这 些 简单 类 
型 的 死 锁 。 


道 设 
= EN 
能 更 


20.3 ”不 使 用 信号 量 ， 重 新 实现 thread.c 中 的 Chan 接 口 。 为 通 
计 一 个 适当 的 表示 ， 直 接 使 用 内 部 队列 和 线程 男 数 ， 而 非 信和 号 
数 。 请 注意 警报 一 待 决 状态 。 设 计 一 个 测试 套件 ， 以 测量 这 种 可 


为 高 效 的 实现 所 市 来 的 好 处 。 对 于 修订 的 实现 ， 请 量化 应 用 程序 的 消 
轧 活 动 程度 ， 以 便 在 运行 时 产生 可 测量 的 差异 。 


20.4 设计 并 实现 一 个 异步 、 缓 冲 式 通讯 接口 ， 这 是 一 个 线程 间 
消 轧 通讯 设施 ， 其 中 发 送 方 并 不 等 竺 消息 被 接收 ， 消 恩 被 缓冲 起 来 ， 
直至 被 接收 为 止 。 你 的 设计 应 该 允许 消 恩 的 生命 周期 长 于 其 发 送 线 
fe, Bl, RATA BIB, Aa BRU MIE J e 
异步 通信 比 Chan 同 步 通 信和 更 为 复 哥 ， 因 为 它 必须 处 理 对 缓冲 消 恩 的 存 
储 管理 和 更 多 的 错误 条 件 ， 例 如 ， 需 要 提供 一 种 方法 ， 供 线程 判断 消 
息 是 否 已 经 被 接收 。 


20.5 Modula-3 文 持 条 件 变量 (condition variable) 。 一 个 条 件 变 
量 c 关 联 到 一 个 锁 m。 原子 操作 sleep(m, c) 导 致 调用 线程 解锁 m 并 在 c 上 
等 待 。 调 用 线程 必须 已 经 锁定 了 m。wakeup(@ 〇 导致 一 个 或 多 个 在 c 上 等 
每 的 线程 恢复 执行 ， 其 中 之 一 重新 锁定 m 并 从 其 对 sleep 的 调用 返回 。 
broadcast(c) 类 似 于 wakeup(c)， 但 所 有 在 c 上 睡眠 的 线程 都 恢复 执行 。 
警报 一 待 决 状态 不 影响 阻塞 在 条 件 变 量 上 的 线程 ， 除 非 线 程 调用 
alertsleep 而 不 是 sleep。 当 一 个 已 经 调用 alertsleep 的 线程 被 设置 为 警报 
一 待 决 状态 ， 则 其 锁 m 并 引发 Thread_Alerted 异 常 。 设 计 并 实现 一 个 支 
寺 条 件 变 量 的 接口 ， 使 用 读者 在 习题 20.1 中 实现 的 锁 。 


20.6 ”如 果 你 的 系统 支持 非 阻塞 1/O 系 统 调用 ， 使 用 它们 为 C 标 准 
IO 库 构 建 一 个 线程 安全 的 实现 。 即 ， 举 例 来 说 ， 当 一 个 线程 调用 fgetc 
时 ， 该 线程 等 待 输入 时 ， 其 他 线程 可 以 执行 加。 

20.7 设计 一 种 方法 ， 使 得 无 需 使 用 _MONITOR 和 


_ENDMONITOR， 即 可 使 Thread 和 Sem 了 范 数 的 执行 具有 原子 性 。 提 
示 : 单一 的 全 局 临界 区 标志 是 不 够 的 。 读 者 将 需要 为 每 个 线程 设置 一 


个 临界 区 标志 ， 而 汇编 语言 代码 将 需要 修改 该 标志 。 请 务必 诬 慎 ， 使 
用 这 种 方法 很 容易 造成 一 些微 妙 的 错误 。 


20.8 扩展 Thread_new， 使 之 可 以 接受 指定 栈 长 度 的 可 选 参 数 。 
例如 ， 


t = Thread_new(..., "stacksize", 4096, NULL); 
上 述 代 码 将 创建 一 个 栈 长 度 为 4KB 的 线程 。 


20.9” 按 20.1 节 的 建议 ， 向 Thread 的 实现 添加 优先 级 支持 ， 以 支持 
少量 的 优先 级 。 修 改 Thread_init 和 Thread_new， 使 之 可 以 接受 指定 优 
先 级 为 可 选 参数 。[Tanenbaum，1995] 描 述 了 如 何 实现 一 种 文 持 优 先 级 
的 公平 调度 策略 。 


20.10 DCE 文 持 模板 ， 模 板 实质 上 是 线程 属性 的 关联 表 。 在 用 
DCE 的 pthread_create 创 建 一 个 线程 时 ， 模 板 提 供 了 诸如 栈 长 度 和 优先 
级 这 样 的 属性 。 模 板 可 以 避免 在 线程 创建 调用 中 重复 同样 的 参数 ， 还 
使 得 可 以 在 线程 创建 位 置 以 外 之 处 指定 线程 属性 。 使 用 Table_T 为 
Thread 接 口 设计 一 种 模板 设施 ， 并 修改 Thread_new， 使 之 可 以 接受 一 
个 模板 作为 其 可 选 参数 。 


20.11 在 共享 内 存 的 多 处 理 器 机 器 (如 Sequent) 上 实现 Thread 和 
Sem 接 口 。 与 20.3 节 详 述 的 实现 相 比 ， 这 种 实现 复杂 得 多 ， 因 为 此 时 线 
程 是 真正 在 多 处 理 器 上 并 发 执行 的 。 实 现 原子 操作 将 需要 某 种 形式 的 
故 层 目 旋 锁 机 制 ， 以 确保 对 存 取 共享 数据 结构 的 短 临界 区 的 独占 访 
问 ， 就 像 是 Thread 和 Sem 芳 数 中 所 做 的 那样 。 


20.12 ”在 海量 并 行 处 理 器 (Massively Parallel Processor, MPP) 


上 实现 Thread、Sem 和 Chan 接 口 ， 此 类 机 恬 的 例子 如 Cray T3D， 由 22 
个 DEC ALPHA 处 理 器 组 成 。 在 MPP 上 ， 每 个 处 理 器 有 自身 的 内 存 ， 
有 某 种 底层 机 制 (通常 实现 在 硬件 中 ) 供 一 个 处 理 器 访问 男 一 个 处 理 
器 的 内 存 。 该 习题 提出 的 挑战 之 一 是 ， 确 定 如 何 将 Thread、Sem 和 
Chan 接 口 所 依 爱 的 共 孚 内 存 模型 映射 到 MPP 提 供 的 分 布 式 内 存 模型 
下 二 


20.13 ”使 用 DCE 线 程 实现 Thread、Sem 和 Chan 接 口 。 请 务必 指明 
Thread_new 的 实现 接受 哪些 系统 相关 的 可 选 参数 。 


20.14 使 用 LWP 在 Solaris 2 上 实现 Thread、Sem 和 Chan 接 口 ， 根 据 
需要 为 Thread_new 提 供 可 选 参数 。 


20.15 ”使 用 POSIX 线 程 (参见 [Kleiman, Shah and Smaalders , 
1996]) 实现 Thread、Sem 和 Chan 接 口 。 


20.16 ”使 用 Microsoft 的 Win32 线 程 接口 (参见 [Richter，1995]) 实 
现 Thread、Sem 和 Chan 接 口 。 


20.17 “如果 读 者 能 够 使 用 SPARC 架 构 上 的 C 编 译 器 ， 如 lcc [Fraser 
and Hanson，1995]， 请 修改 该 编译 器 使 之 不 使 用 SPARC 寄 存 器 窗口 ， 
这 可 以 消除 _swtch 中 的 ta 3 系统 调用 。 当 然 ， 读 者 也 需要 重新 编译 读者 
使 用 的 任何 库 。 测 量 在 运行 时 带 来 的 改进 。 提 醒 读 者 这 个 习题 是 一 
个 较 大 的 项 目 。 


20.18 ”Thread_new 必 须 分 配 一 个 栈 ， 因 为 大 多 数 编译 系统 假定 ， 
在 一 个 程序 开始 执行 时 ， 已 经 分 配 了 一 个 连续 的 栈 。 少 数 系统 ， 如 
Cray-2， 以 内 存 块 为 单位 来 即时 分 配 栈 。 函 数 的 入 口 指令 序列 需要 在 


当前 内 存 块 中 分 配 栈 帧 (如 果 放 得 下 ) ， 否 则 ， 需 要 分 配 一 个 新 的 足 
够 长 的 内 存 块 ， 将 其 连接 到 当前 内 存 块 中 。 当 内 存 块 中 最 后 一 个 栈 帧 
被 删除 后 ， 函 数 的 退出 指令 序列 需要 解除 内 存 块 的 连接 并 释放 该 内 存 
块 。 这 种 方法 不 仅 人 简化 了 线程 的 创建 ， 也 目 动 地 检查 了 栈 洲 出 。 修 改 
某 个 C 编 译 紫 来 使 用 这 种 方法 ， 并 测量 其 好 处 。 类 似 前 一 道 习 题 ， 读 
者 将 需要 重新 编译 你 使 用 的 任何 库 ， 这 个 习题 也 是 一 个 大 项 目 。 


[activation 引 目 activation record, 8Y H RAAT RGA Zea; E] 
时 存在 多 个 activation record， 即 指 函 数 同时 被 多 次 调用 。 一 -一 译 者 注 


[2] 这 个 仅 适 用 于 用 户 级 线程 ， 内 核 级 线程 是 不 受 MO 阻 塞 影 响 
的 。 一 一 译 者 注 


附录 A ”接口 摘要 


接口 摘要 按 字 母 顺序 如 下 列 出 : 各 个 小 市 给 出 每 个 接口 的 名 称 及 
其 主要 类 型 (如 果 有 的 话 ) 。“T 是 不 透明 的 X_T 的 记 法 ， 表 示 接 口 又 
导出 了 一 个 不 透明 指针 类 型 X_T， 在 描述 中 缩写 为 T。 如 果 接 口 会 公开 
其 主要 类 型 ， 那 么 会 给 出 X_T 的 表示 。 


每 个 接口 的 摘要 会 按 字母 顺序 分 别 列 出 导出 的 变量 (不 包括 异 
常 ) 后 接 导 出 的 函数 。 每 个 函数 的 原型 都 后 接 其 可 能 引发 的 异常 和 对 
函数 的 简要 描述 。 缩 写 cre. 和 ure. 分 别 代表 已 检查 的 运行 时 错误 和 未 


检查 的 运行 时 错误 由 。 


表 A-1 按 类 别 综 述 了 本 书 中 的 各 个 接口 。 


表 A-1 本 书 中 的 各 个 接口 


Æ Fi 抽象 数据 类 型 /ADT 字符 串 算术 线程 
Arena Array Atom AP Chan 
Arith ArrayRep Fmt MP Sem 
Assert Bit Str XP Thread 
Except List Text 
Mem Ring 

seq 

Set 

Stack 

Table 


T 是 不 透明 的 AP_T 


传递 NULL 的 T 值 给 任何 AP 函 数 都 是 已 检查 的 运行 时 错误 。 


T AP_add(T X, T y) 
Mem_Failed 
T AP_addi(T x; long int y) 
Mem_Failed 

返回 和 值 Xx+y。 
int AP_cmp(T x, T y) 
int AP_cmpi(T x, long int y) 

对 于 X<y、Xx=y、Xx>y， 分 别 返 回 <0、=0、>0 的 整数 。 
T AP_div(T X, T y) 
Mem_Failed 
T AP_divi(T x; long int y) 
Mem_Failed 

返回 商 x / y， 参 见 Arith_div。y=0， 则 为 已 检查 的 运行 时 错误 。 
void AP_fmt (int code, va_list *app, 
Mem_Failed 

int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 

一 个 Fmt eR: 消耗 一 个 T， 并 按照 printf 的 %d 限 定 符 对 其 进行 格式 
化 。app 或 flags 

是 NULL， 则 为 已 检查 的 运行 时 错误 。 
void AP_free(T *z) 

释放 *z， 并 将 其 清 零 。z 或 *z 为 NULL， 则 为 已 检查 的 运行 时 错误 。 
T AP fromstr(const char ‘Str, int base, char **end) 
Mem_Failed 

将 str 解释 为 base 基 数 下 的 一 个 整数 ， 并 返回 表示 结果 的 T。 在 处 理 过 程 


中 ， 会 忽略 str 前 

部 的 空格 ， 可 以 接受 一 个 可 选 的 符号 ， 后 接 一 个 或 多 个 以 pase 为 基数 的 数 
位 。 对 于 10<base< 
36， 人 小 写 或 大 写字 母 解释 为 大 于 9 的 数位 。 如 果 end 不 为 NULL，*end 指 向 


str PHH 


结束 处 的 字符 。 如 果 str 不 表示 base 基 数 下 的 一 个 整数 ， 那 么 AP_fromstr 


返回 NULL ， 


并 将 *end 设 置 为 str (如 果 end 不 是 NULL) 。str 为 NULL 或 base<2 或 
base>36， 则 为 


已 检查 的 运行 时 错误 。 


T AP_lshift(T Ky int sS) 
Mem_Failed 

返回 x 左 移 s 个 比特 位 的 值 ， 空 出 的 比特 位 填 09， 结 果 的 符号 与 x 相同 。s<0， 
则 为 已 检查 的 运行 时 错误 。 


T AP_mod(T X, T y) 


Mem_Failed 
long AP_modi(T X; long int y) 
Mem_Failed 


` 


返回 x mod y， 参 见 Arith_mod。y=0， 则 为 已 检查 的 运行 时 错误 。 


T AP_mul(T X, T y) 
Mem_Failed 
T AP_muli(T X, long int y) 
Mem_Failed 

返回 乘积 x * ye 
T AP_neg(T x) 


Mem_Failed 


` 


返回 -x。 


T AP_new( long int n) 
Mem_Failed 

分 配 和 返回 一 个 新 的 T， 其 值 初始 化 为 n。 
T AP_pow(T X, T y, T p) 


Mem_Failed 


` 


返回 xy 


mod p。 如 果 p=NULL， 返 回 Xy 


。y<0， 或 p 不 是 NULL 且 p<2， 则 为 已 检查 的 运行 时 错误 。 


T AP_rshift(T X; int S ) 
Mem_Failed 

返回 x 石 移 s 个 比特 位 的 结果 ， 空 出 的 比特 位 填 09， 结 果 的 符号 与 x 相同 。 
s<0， 则 为 已 检查 的 运行 时 错误 。 


T AP_sub(T X, T y) 


Mem_Failed 

T AP_subi(T Xy long int y) 
Mem_Failed 

返回 差 值 x - ye 
long int AP_toint(T x) 


返回 一 个 long 型 值 ， 


yy 
J 
di 
dy 
x< 

一 + 
I 
可 
并 
Aw 


名 对 值 为 |x| mod LONG_MAX + 


to 
char *AP_tostr(char *str, int size, int base, T x) 
Mem_Failed 


用 x 在 base 基 数 下 的 字符 表示 来 填充 str[0..size - 1]， 并 返回 str。 


如 果 str=NULL， 


AP_tostr 为 其 分 配 空间 。 当 base>10 时 ， 大 写字 母 用 于 表示 大 于 9 的 数 
位 。 如 果 str 不 


Bo 


是 NULL 但 容量 太 小 ， 或 base<2 或 base>36， 刚 为 已 检查 的 运行 时 错误 。 


A.2 Arena 


TI 是 不 透明 的 Arena T 


问 任何 Arena 芳 数 传递 的 参数 nbytes<0 或 T 值 为 NULL， 均 为 已 检查 
的 运行 时 错误 。 


void *Arena_alloc(T arena, long nbytes, 
Arena—Failed 

const char *file, int line) 
在 内 存 池 中 分 配 nbytes 个 字 节 并 返回 一 个 指针 ， 指 向 第 一 个 字 节 。 分 配 的 


= 


nbytes 个 字 市 


是 未 初始 化 的 。 如 果 Arena_alloc3 引 | 发 Arena_Failed 异 常 ， 则 将 file 和 


line 作 为 ! 


普 的 源 代码 位 置 报告 。 


void *Arena_calloc(T arena, long count, 


Arena—Failed 
long nbytes, const char *file, int line) 
在 内 存 池 中 为 一 个 count 个 元 素 的 数组 分 配 空间 ， 每 个 数组 元 素 占 nbytes 
字 节 ， 并 返回 
一 个 指针 指向 第 一 个 元 素 。count<9 则 造成 已 检查 的 运行 时 错误 。 数 组 的 各 
个 元 素 是 未 初 


台 化 的 。 如 果 Arena_calloc 引 发 Arena_Failed 异 常 ， 则 将 file 和 1ine 


作为 出 错 的 
源 代码 位 置 报告 。 
void Arena_dispose(T *ap) 
释放 *ap 中 所 有 的 空间 ， 释 放 内 存 池上 自身 ， 并 将 *ap 清 零 。ap 或 *ap 为 


NULL， 则 是 已 检查 的 运行 时 错误 。 


void Arena_free(T arena) 


释放 内 存 池 中 所 有 


的 空间 ， 即 自 上 一 次 调用 Arena_free 以 来 所 有 分 配 的 空间 。 


T Arena_new(void) 


Arena_NewFailed 


分 配 、 初 始 化 并 返回 一 个 新 的 内 存 池 。 


A.3 Arith 


int Arith_ceiling(int x, int y) 
返回 不 小 于 x/y 实 数 商 的 最 小 整数 。y=0， 则 为 未 检查 的 运行 时 错误 。 
int Arith_div(int x, int y) 
返回 x/y， 若 有 实数 z 使 得 z * y = X， 返 回 值 即 不 大 于 实数 z 的 最 大 整 
数 。 向 -% 舍 入 ， 
例如 ，Arith_div(-13，5) 返 回 -3。y=90， 则 为 未 检查 的 运行 时 错误 。 


int Arith_floor(int x, int y) 
返回 不 大 于 x/y 实 数 商 的 最 大 整数 。y=0， 则 为 未 检查 的 运行 时 错误 。 


int Arith_max(int x, int y) 


返回 max(X，y)。 


int Arith_min(int x, int y) 


返回 min(X，y) ° 
int Arith_mod(int x, int y) 


El 


返回 x - y * Arith_ div(x，y)， 例 如 ，Arith_mod(- 13，5) 返 


2。y=0， 则 为 未 检查 的 运行 时 错误 。 


A.4 Array 


T2N6 AM Array_T 


数组 索引 从 0 到 N-1， 其 中 TV 是 数组 的 长 度 。 空 数组 没有 元 素 。 癌 
任何 Array 函 数 传递 为 NULL 的 T 值 都 是 已 检查 的 运行 时 错误 。 


T Array_copy(T array, int length) 
Mem_Failed 

创建 并 返回 一 个 新 的 数组 ， 其 中 包含 array 的 前 length 个 元 素 。 如 果 
length 大 于 array 的 长 度 ， 过 多 的 元 素 将 被 清 零 。 


void Array_free(T *array) 


释放 *array 并 将 其 清 零 。 如 果 array 或 *array 是 NULL， 则 是 已 检查 的 运 


行 时 错误 。 


void *Array_get(T array, int i) 


返回 指向 第 i 个 数组 元 素 的 指针 。i<0 或 >=N， 则 为 已 检查 的 运行 时 错误 ， 其 
中 N 是 array 的 长 度 。 
int Array_length(T array) 

返回 array 中 元 素 的 数目 。 
T Array_new(int length, int size) 


Mem_Failed 
分 配 、 初 始 化 并 返回 一 个 新 的 数组 ， 由 Length 个 元 素 组 成 ， 每 个 元 素 长 度 


为 size 字 节 。 
各 个 元 素 都 被 清 零 。length<0 或 size<0， 则 为 已 检查 的 运行 时 错误 。 


void *Array_put(T array, int i, void *elem) 


Melem& tll Array_size(array) ^F 71) 2larray Bit cA Al 


elem ° elem= 


NULL 或 i<0 或 i>N， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 array 的 长 度 。 
void Array_resize(T array, int length) 
Mem_Failed 

将 数组 中 元 素 的 数目 改 为 length。 如 果 length 大 于 原来 的 长 度 ， 过 多 的 元 
素 将 清 零 。 


length<0， 则 造成 已 检查 的 运行 时 错误 。 


int Array_size(T array) 


` 


返回 array 中 元 素 的 长 度 ， 按 字 节 计算 ° 


A.s ArrayRep 


TÆArray_T 


typedef struct T { 


int length; int size; char *array; } *T; 


改变 IT 实例 中 的 字段 ， 属 于 未 检查 的 运行 时 错误 。 


void ArrayRep_init(T array, int length, 
int size, void *ary) 


将 array 中 的 各 个 字段 初始 化 为 length、size 和 ary。 如 果 lengthzx0 且 


ary=NULL, 


或 length=0 有 目 aryznull， 或 size<0， 都 是 已 检查 的 运行 时 错误 。 用 其 他 
方式 初始 化 T 
实例 ， 属 于 未 检查 的 运行 时 错误 。 


A.6 Assert 


assert(e) 


如 果 e 为 0O， 则 引发 Assert_Failed 异 常 。 语 法 上 ，assert(e) 是 一 个 表 
达 式 。 如 果 包 含 
assert .h 头 文件 时 ， 已 经 定义 了 NDEBUG， 则 上 断言 被 禁 


A.7 Atom 


le] {E Atom WALZ EE NULL ÉS str, Wæ OR AAS TTY FB 
误 。 修 改 原子 ， 属 于 未 检查 的 运行 时 错误 。 


int Atom length(const char *str) 
返回 原子 str 的 长 度 。 如 果 str 不 是 原子 ， 则 造成 已 检查 的 运行 时 错误 。 


const char *Atom_new(const char *str, int len) 


Mem_Failed 
返回 对 应 于 str[9..len - 1] 的 原子 ， 如 有 必要 则 创建 一 个 原子 。 
len<0， 则 为 已 检查 的 运行 时 错误 。 


const char *Atom_string(const char *str) 


Mem_Failed 


返回 Atom_new(str, strlen(str)) ° 


const char *Atom_int(long n) 


Mem_Failed 


返回 对 应 于 n 的 十 进 制 字 符 串 表示 的 原子 。 


A.8 Bit 


TI 是 不 透明 的 Bit_T 


位 向 量 中 的 各 个 比特 位 按 0 到 N-1 编 号 ， 其 中 N 是 该 向 量 的 长 度 。 
向 任何 Bit 画 数 传 递 的 T 值 为 NULL， 均 为 已 检查 的 运行 时 错误 
(Bit_ union、Bit_inter、Bit_ minus 和 Bit_diff 除 外 ) ° 


void Bit_clear(T set, int lo, int hi) 


清除 set 中 1o 到 hi 的 各 个 比特 位 。1Lo>hi 或 1o<0 或 1o>zN 或 hi<0 或 hi>N， 


RACK 


查 的 运行 时 错误 ， 其 中 N 为 set 的 长 度 。 
int Bit_count(T set) 
返回 set 中 置 位 比特 位 数目 。 
T Bit_diff(T s, T t) Mem_Failed 
返回 se 和 t 的 对 称 差 s / t: s 和 t 的 异 或 。 如 果 s=NULL 或 t=NULL， 则 表示 
集 。s= 
NULL 且 t=NULL， 或 sS 和 t 长 度 不 同 ， 则 为 已 检查 的 运行 时 错误 。 
int Bit_eq(T s, T t) 
如 果 s=t， 则 返回 1， 和 否则 返回 9。 如果 s 和 t 长 度 不 同 ， 则 为 已 检查 的 运行 时 


Ht 


错误 2 


void Bit_free(T *set) 


释放 *set， 并 将 其 清 零 。set 或 *set 是 NULL， 则 造成 已 检查 的 运行 时 错 


int Bit_get(T set, int n) 
返回 比特 位 n 的 值 。n<0 或 nzN， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 set 的 


长 度 。 

T Bit_inter(T s, T t) Mem_Failed 
返回 s n t: s 和 t 的 按 位 与 。 已 检查 的 运行 时 错误 ， 请 参见 Bit_diff ° 

int Bit_length(T set) 

返回 set 的 长 度 。 


int Bit_leq(T s, T t) 


如 果 sct， 则 返回 1， 否 则 返回 0。 已 检查 的 运行 时 错误 ， 请 参见 Bit_eq。 


int Bit_lt(T s, T t) 


如 果 sct， 则 返回 1， 否 则 返回 9。 已 检查 的 运行 时 错误 ， 请 参见 Bit_eq。 
void Bit_map(T set, 


void apply(int n, int bit, void *cl), void *cl) 


对 set 中 从 0 到 N- 1 的 每 个 比特 位 调用 apply(n，bit，clL)， 其 中 N 是 
set 的 长 度 。 

apply 对 set 的 修改 ， 将 影响 到 接 下 来 调用 apply 时 bit 参 数 的 值 。 
T Bit_minus(T s, T t) Mem_Failed 

返回 s- t: Ss 和 ~ 的 按 位 与 。 已 检查 的 运行 时 错误 ， 请 参见 Bit_diff ° 
T Bit_new(int length) Mem_Failed 


创建 并 返回 一 个 长 度 为 length 的 位 向 量 ， 所 有 比特 位 均 为 0。length<0， 
则 造成 已 检查 的 运行 时 错误 。 

void Bit_not (T set, int lo, int hi) 

对 set 中 1o 到 hi 的 各 个 比特 位 取 反 。 已 检查 的 运行 时 错误 ， 请 参见 


Bit _clear ° 


int Bit_put(T set, int n, int bit) 
Bit_put 将 集合 中 的 比特 位 n 设 置 为 bit， 并 返回 该 比特 位 的 原 值 。bit<9 
或 bit>1， 或 


n<6 或 nzN， 均 为 已 检查 的 运行 时 错误 ， 其 中 N 是 set 的 长 度 。 
void Bit_set(T set, int lo, int hi) 


F set FAY fh FF it lo# hie ise E$ 
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查 的 运行 时 错误 ， 请 参见 


Bit_clear ° 
T Bit_union(T s, T t) Mem_Failed 
返回 sut : s 和 t 的 按 位 或 。 已 检查 的 运行 时 错误 ， 请 参见 Bit_diff。 


A.9 Chan 


TIT 是 不 透明 的 Chan_T 


向 任何 Chan 函 数 传 递 的 T 值 为 NULL ， 或 在 调用 Thread init 之 前 调 
用 任何 Chan 函 数 ， 均 为 已 检查 的 运行 时 错误 。 


T Chan_new(void) 
Mem_Failed 
创建 、 初 始 化 并 返回 一 个 新 的 通道 。 


int Chan_receive(T C, void *ptr, int size) 


Thread_Alerted 
等 待 一 个 对 应 Chan_send 操 作 发 出 数据 ， 然 后 从 发 送 来 的 数据 中 复制 不 超 


过 size 字 节 到 


ptr 中 ， 并 返回 复制 的 字 节 数 。ptr=NULL 或 size<0， 均 为 已 检查 的 运行 时 
错误 。 
int Chan_send(T Cy const void xptr， 


Thread_Alerted 
等 待 一 个 对 应 Chan_receive 操 作 进 入 接收 状态 ， 然 后 从 ptr 中 复制 不 超过 


size 字 节 给 


接收 方 ， 并 返回 复制 的 字 节 数 。 已 检 


Chan_receive ° 
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A.10 Except 


TE 为 Except_T 


typedef struct T { char *reason; } T; 


TRY 语句 的 语法 如 下 ，S 和 e 表 示 语 句 和 有 异常 。ELSE 子 句 是 可 选 
的 。 


TRY S 


EXCEPT(e 


)s 


. EXCEPT(e 


) Sn 


ELSE S 


END—TRY 


TRY S 


FINALLY S 


END_TRY 


void Except_raise(const T *e, const char *f 


ile, int line) 


在 源 代 码 位 置 fFile 和 1ine 处 引发 异常 *e。 如 细 
行 时 错误 。 未 
捕获 的 异常 ， 将 导致 程序 终 I 上 。 


RAISE(e) 
引发 异常 e。 


RERAISE 


新 引发 导致 异常 处 理 程序 执行 的 异常 。 


lil 


RETURN 


RETURN expression 


Re=NULL ， 则 为 已 检 


oe 


是 用 于 TRY 语句 内 部 的 返回 语句 。 在 TRY 语句 内 使 用 C 语 言 的 返回 语句 ， 属 于 


未 检查 的 运行 时 错误 。 


A.11 Fmt 


TED AFmt_T 


typedef void (*T)(int code, 
va_list *app, int put(int c, void *cl), void *cl, 


unsigned char flags[256], int width, int precision) 


定义 了 转换 函数 的 类 型 ， 当 格式 串 中 出 现 转换 限定 符 时 ， 由 Fmt 
画 数 调用 相关 联 的 转换 函数 。 在 这 里 和 下 文中 ， 都 是 调用 Put(c, ch) 来 
输出 各 个 被 格式 化 的 字符 c。 表 14-1 汇 总 了 最 初 定义 的 转换 限定 符 集 
合 。 向 任何 FEmt 函 数 传递 的 put、buf 或 fmt 为 NULL ， 或 格式 串 使 用 了 没 
有 关联 转换 函数 的 转换 限定 符 ， 都 是 已 检查 的 运行 时 错误 。 


char *Fmt_flags = "-+0" 
指向 转换 限定 符 5 出 现 的 标志 字符 。 


void Fmt_fmt(int put(int c, void *cl), void *cl, 


Ow 


f 


al 


const char *fmt, ...) 
根据 格式 串 fmt， 格 式 化 并 输出 可 变 部 分 的 参数 。 


void Fmt_fprint(FILE *stream, const char *fmt, ...) 


void Fmt_print(const char *fmt, ...) 
根据 fmt 格 式 化 并 输出 可 变 部 分 的 参数 ，Fmt_fprint 写 出 到 流 ， 而 
Fmt_print 输 出 到 stdout ° 


void Fmt_putd(const char *str, int len, 

int put(int c, void *cl), void *cl, 

unsigned char flags[256], int width, int precision) 
void Fmt_puts(const char *str, int len, 

int put(int c, void *cl), void *cl, 

unsigned char flags[256], int width, int precision) 

根据 Fmt 的 默认 值 (参见 表 14-1) 和 flags、width 和 precision 的 值 ， 
格式 化 并 输出 

str[O..len - 1] 中 转换 过 的 数值 (使 用 Fmt_putd 输 出 ) 或 字符 串 (使 
用 Fmt_puts 输 


H) 。 如 果 str=NULL， 或 1en<9， 或 flags=NULL， 均 为 已 检查 的 运行 时 
IR ° 
T Fmt_register(int code, T cvt) 

将 cvt 关 联 到 格式 符 code ， 并 返回 此 前 设 定 的 转换 函数 。 如 果 code<0 或 
code>255， 则 为 已 检查 的 运行 时 错误 。 


int Fmt_sfmt (char *buf, int size, 
Fmt_Over flow 

const char *fmt, ...) 

根据 fmt ， 将 参数 的 可 变 部 分 格式 化 到 buf [O..size - 1] 中 ， 并 添加 一 
个 0 字符 ， 最 后 


返回 buf 的 长 度 


。 如 果 size<9， 则 为 已 检查 的 运行 时 错误 。 如 果 需 要 输出 的 字符 数目 大 


于 size - 1， 则 引发 Fmt_0Overflow 异 常 。 


char *Fmt_string(const char *fmt, ...) 


根据 fmt ， 将 参数 的 可 变 部 分 格式 化 为 一 个 0 结尾 字符 串 ， 并 返回 该 字符 


void Fmt_vfmt(int put(int c, void *cl), void *cl, 
const char *fmt, va_list ap) 
参见 Fmt_fmt ， 本 函数 从 可 变 参 数列 表 ap 获 取 参 数 。 


int Fmt_vsfmt (char *buf, int size, 


Fmt_Overflow 

const char *fmt, va_list ap) 

参见 Fmt_sfmt ， 本 函数 从 可 变 参 数列 表 ap 获 取 参 数 。 
char *Fmt_vstring(const char *fmt, va_list ap) 


参见 Fmt_string， 本 函数 从 可 变 参 数列 表 ap 获 取 参 数 。 


A.12 List 


T 即 为 List_T 


typedef struct T *T; 
struct T { T rest; void *first; }; 


所 有 的 List 函 数 都 可 以 接受 1ist 参 数值 为 NULL， 并 将 其 解释 为 空 链表 。 


T List_append(T list, T tail) 


将 tail1 追 加 到 1ist 并 返回 1ist。 如 果 1List=NULL，List_append 返 回 
tail ° 


T List_copy(T list) 


Mem_Failed 
创建 并 返回 List 的 一 个 副本 〈 浅 层 复制 ) 。 
void List_free(T *list) 


释放 *1ist 并 将 其 清 零 。 如 果 1ist=NULL， 则 为 已 检查 的 运行 时 错误 。 


int List_length(T list) 
回 1ist 中 元 素 的 数目 。 
T List_list(void ap. wea) 


= 


Mem_Failed 
创建 并 返回 一 个 链表 ， 其 元 素 3 
强人 针 为 止 。 


void List_map(T list, 


昌 参 数 的 可 变 部 分 ， 直 至 直到 第 一 个 NULL 


ZE 


void apply(void **x, void *cl), void *cl) 


对 于 List 中 的 每 个 元 素 p， 调 用 apply (&p->first, cl) ° Wapply 
修改 1ist， 则 

为 未 检查 的 运行 时 错误 。 
T List_pop(T list, void **x) 

将 List ->first 赋 值 给 *x (如 果 x 不 是 NULL) ， 释 放 11st， 并 返回 list 


->rest。 如 果 


list=NULL，List_pop 返 回 NULL， 并 不 改变 *x。 
T List_push(T list, void *x) 
Mem_Failed 

将 一 个 包含 x 的 新 元 素 添加 到 1ist 的 前 端 ， 并 返回 新 链表 。 
T List_reverse(T list) 

将 List 中 的 各 个 元 素 逆 向 ， 并 返回 反 转 后 的 链表 。 


void $ *List_toArray(T list, void *end) 


Mem_Failed 
创建 一 个 N+1 个 元 素 的 数组 ， 包 含 1ist 中 的 N 个 元 素 ， 并 返回 指向 第 一 个 元 


素 的 指针 。 数 
组 中 第 N 个 元 素 设 置 为 end 。 


A.13 Mem 


器 Mem 接 口中 任何 琅 数 或 宏 传 递 的 nbytes<0， 则 为 已 检查 的 运行 
时 错误 ss 


ALLOC(nbytes) 
Mem_Failed 

分 配 nbytes 个 字 节 并 返回 指向 第 一 个 字 节 的 指针 。 分配 的 nbytes 个 字 节 是 
未 初始 化 的 。 

参见 Mem_alloc。 


CALLOC(count, nbytes) 
Mem_Failed 

为 一 个 count 个 元 素 的 数组 分 配 空间 ， 每 个 数组 元 素 占 nbytes 字 节 ， 并 返 
回 一 个 指针 指 

向 第 一 个 元 素 。count<0 则 造成 已 检查 的 运行 时 错误 。 各 个 元 素 都 被 清 零 。 


参见 Mem_calloc。 


FREE(ptr ) 


fii 


如 果 ptr 不 是 NULL， 释 放 ptr， 则 将 ptr 清 零 。 作 为 表达 式 ，ptr 会 被 求 值 


多 次 。 参 见 Mem_free。 
void *Mem_alloc(long nbytes, 
Mem_Failed 

const char *file, int line) 


分 配 nbytes 个 字 节 并 返回 指向 第 一 个 字 节 的 指针 。 分 配 的 nbytes 个 字 节 是 


未 初始 化 的 。 
如 果 Mem_alloc3 引 | 发 Mem_Failed 异 常 ， 则 将 fijle 和 1ine 作 为 出 错 的 源 代 
码 位 置 报 告 。 


void *Mem_calloc(long count, long nbytes, 


Mem_Failed 

const char *file, int line) 

A“ count TRW EDEN, ES ZAC nbytes FT, Hk 
回 一 个 指针 指 


向 第 一 个 元 素 。count<06 则 造成 已 检查 的 运行 时 错误 。 各 个 元 素 都 被 清 零 ， 
这 不 见得 会 将 
指针 初始 化 为 NULL 或 将 浮 点 值 初始 化 为 0.0。 如 果 Mem_calloc 引 发 


Ae 


Mem_Failed= %, 
则 将 file 和 1ine 作 为 出 错 的 源 代 码 位 置 报告 。 
void Mem_free(void *ptr, const char *file, int line) 


goptrAENULL, MÆ ptr o WRptrfstt He Le aT Va Mem AC eA Ae 


返回 的 ， 则 

造成 未 检查 的 运行 时 错误 。 接 口 的 实现 可 使 用 file 和 1ine 来 报告 内 存 使 用 
错误 。 
void *Mem_resize(void *otr, long nbytes, 


Mem_Failed 

const char *file, int line) 

变更 ptr 指 向 的 内 存 块 的 长 度 ， 使 之 包含 nbytes 字 市 ， 并 返回 指向 新 内 存 
RE TEN 

的 指针 。 如 果 nbytes 大 于 
的 。 如 果 nbytes 
小 于 原来 的 内 存 块 的 长 度 ， 则 原来 的 内 存 块 中 仅 有 前 nbytes 个 字 节 会 出 现 
在 新 内 存 块 中 。 


来 的 内 存 块 的 长 度 ， 新 增 的 字 节 将 是 未 初始 化 


ŠT 


如 果 Mem_resize3 引 发 Mem_Failed 异 常 ， 则 将 file 和 1ine 作 为 出 错 的 源 


代码 位 置 报 


H 
A 
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。 如 果 ptr=NULL， 则 为 已 检查 的 运行 时 错误 ， 如 果 ptr 指 针 不 是 此 前 调 


数 返回 的 ， 则 为 未 检查 的 运行 时 错误 。 


NEW(p) 
Mem_Failed 
NEWO(p) 


Mem_Failed 


分 配 一 个 足够 大 、 可 容纳 *p 的 内 存 块 ， 将 p 设 置 为 该 内 存 块 的 地 址 ， 并 返 


该 地 址 。NEWO 


El 
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个 字 节 的 内 容 
是 未 初始 化 的 。 两 个 宏 都 
RESIZE(ptr, 


Mem_Failed 


变更 ptr 指 向 的 内 存 块 的 长 度 ， 使 之 包含 nbytes 字 节 ， 将 ptr 


大 小 后 的 内 


只 对 ptr 求 值 一 次 。 


nbytes ) 


新 指向 调整 


lil 


w 


存 块 ， 并 返回 该 内 存 块 的 地 址 。 作 为 表达 式 ，ptr 会 被 求 值 多 次 。 参 见 


Mem_resize ° 


A.14 MP 


typedef unsigned char *T 


T 即 为 MP_T 


MP 函数 可 以 执行 n-bit 有 符号 和 无 符号 


算术 ， 其 中 mn 初 始 化 为 32， 


可 以 通过 MP _ set 修改。 名 称 以 ua 或 mi 结尾 的 函数 ， 执 行 无 符号 算术 ， 其 
WE K AA IT A AES Ro MP EK AS EY] & MP Overflow 或 


MP_DivideByZero 异 常 之 前 计算 其 结 


° 癌 任何 MP 函数 传递 为 NULL 


的 T 值 都 是 已 检查 的 运行 时 错误 。 同 任何 MP 函数 传递 太 小 的 T， 部 是 


未 检查 的 运行 时 错误 。 


T MP_add(T Z, T 
MP_Overflow 
T MP_addi(T Z, T 
MP_Overflow 
T MP_addu(T Z, T 
MP_Overflow 
T MP_addui(T Z, T xX, 
MP_Overflow 

将 z 设 置 为 x + y 并 返回 z。 
T MP_and(T z, T x, T y) 


T MP_andi(T z, T x, unsigned long y) 


将 z 设 置 为 x 与 y 的 按 位 与 结果 ， 并 返回 z 。 


T MP_ashift(T z, T x, int s) 


将 z 设 置 为 X 右 移 s 个 比特 位 的 结果 ， 并 返 


F ° S<O, 


则 为 已 检查 的 运行 时 错误 。 


int MP_cmp(T x, T y) 


int MP_cmpi(T x, long y) 
int MP_cmpu(T x, T y) 


int MP_cmpui(T x, unsigned long y) 


X, T y) 

X, long y) 
X, T y) 
unsigned long y) 
z。 空 出 的 比特 位 用 x 的 符号 位 填 


对 于 x<y、Xx=y、Xx>y， 分 别 返 回 <06、=0、>0 的 整数 。 
T MP_cvt(int m, T Z, i X) 
MP_Overflow 
T MP_cvtu(int m, T Z, T 2 
MP_Overflow 

将 x 缩 罕 或 加 宽 为 mn-bit 的 有 符号 或 无 符号 整数 ， 并 赋值 给 z， 最 终 返 回 z 。 
如 果 m<2， 则 为 


已 检查 的 运行 时 错误 。 


T MP_div(T Zy T X, T y) 
MP_Overflow, MP_DivideByZero 
T MP_divi(T Z, T X, long y) 
MP_Overflow, MP_DivideByZero 
T MP_divu(T Z, T X, T y) 
MP_DivideByZero 
T MP_divui(T z, T x, unsigned long y) MP_Overflow, 
MP_DivideByZero 

将 z 设 置 为 XMXy， 并 返回 z。 处 理 有 符号 运算 的 函数 向 -o 舍 入， 参见 
Arith_div ° 


void MP_fmt(int code, va_list *app, 

int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 
void MP_fmtu(int code, va_list *app, 

int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 

DLE a A TS Fit RAKA o EHET Ea, FIERA 

printf 的 %d 和 %u 

的 风格 ， 将 其 格式 化 。b<2 或 b>36，app 或 flags 为 NULL， 均 为 已 检查 的 


运行 时 错误 。 
T MP_fromint(T Z; long v) 
MP_Overflow 
T MP_fromintu(T Ž; unsigned long u) 
MP_Overflow 

这 两 个 函数 将 z 设 置 为 v 或 4， 并 返回 z。 


T MP_fromstr(T z, const char *str, int base, char **end) 


MP_Overf low 
将 str 解 释 为 base 基 数 下 的 一 个 整数 ， 将 z 设 置 为 该 整数 ， 并 返回 z。 参 见 


AP_fromstr ° 


T MP_lshift(T z, T x, int s) 
将 z 设 置 为 Xx 左 移 s 个 比特 位 的 结果 ， 并 返回 z。 空 出 的 比特 位 用 0 填充 。 


S<0， 则 为 已 检查 的 运行 时 错误 。 


T MP_mod(T Z, T X; T y) 
MP_Overflow, MP_DivideByZero 
将 z 设 置 为 x mod y 并 返回 z。 向 -w% 舍 入 ， 参 见 Arith_mod。 


long MP_modi(T X, long y) 
MP_Overflow, MP_DivideByZero 


` 


返回 x mod y ° H-A, BILArith_mod ° 


T MP_modu(T Z, T X, T y) 
MP_DivideByZero 
将 z 设 置 为 x mod y 并 返回 z。 


unsigned long MP_modui(T X, 


MP_Overflow, MP_DivideByZero 
unsigned long y) 


` 


返回 x mod y ° 


T MP_mul(T Z, T X, T y) 


MP_Overflow 
将 z 设 置 为 x * y 并 返回 z。 
T MP_mu12(T Z, 下 


MP_Overflow 


T MP_mul2u(T Z; T 


MP_Overflow 
将 z 设 置 为 x * y 的 " 双 倍 长 结果 "并 返 
T MP_muli(T Z, T 


MP_Overflow 
T MP_mulu(T Z; T 
MP_Overflow 
T MP_mului(T Z, T X, 
MP_Overflow 

将 z 设 置 为 xx*y， 并 返回 z 。 
T MP_neg(T Z, 


MP_Overflow 
将 z 设 置 为 -x 并 返回 z。 


T MP_new(unsigned 


Mem_Failed, MP_Overflow 


回 z，z 有 2n 个 比特 位 。 


创建 并 返回 一 个 T 实 例 ， 其 值 初始 化 为 u。 


T MP_not(T z, T x) 
将 z 设 置 为 ~ 一 x 并 返回 z。 
T MP_or(T z, T x, T y) 


T MP_ori(T z, T x, 
将 z 设 置 为 x 与 y 的 按 位 或 结果 ， 

T MP_rshift(T z, T x, int s) 
将 z 设 置 为 x 右 移 s 个 比特 位 的 结果 ， 


unsigned long y) 


并 返回 z。 


X, long 
X, T 
unsigned long 
T 
long 
REZ ° 40 


y) 


y) 


y) 


y) 


y) 


x) 


u) 


上 的 比特 位 用 0 填充 。 


s<0， 则 为 已 检查 的 运行 时 错误 。 


int MP_set(int n) 
Mem_Failed 

将 MP 重 置 为 执行 h-bit 算 术 。n<2， 则 为 已 检查 的 运行 时 错误 。 
T MP_sub(T Z; T X; T y) 
MP_Overflow 
T MP_subi(T Z, T X, long y) 
MP_Overflow 
T MP_subu(T Z, T X, T y) 
MP_Overflow 
T MP_subui(T Z, T X, unsigned long y) 
MP_Overflow 

将 z 设 置 为 x-y， 并 返回 z。 
long int MP_toint(T x) 
MP_Overflow 
unsigned long MP_tointu(T x) 
MP_Overflow 

将 x 转换 为 long :int 或 unsigned long 返回。 
char *MP_tostr(char *str, int size, int base, T x) 


Mem_Failed 


用 x 在 基数 base 下 的 字符 日 
回 str 。 
vue. 
AP_tostr ° 


并 返 


T MP_xor(T z, T x, T y) 


T MP_xori(T z, T x, 


表示 (0 字符 结 


Rstr=NULL，MP_tostr， 和 忽略 size 并 为 该 字符 


unsigned long y) 


将 z 设 置 为 x 与 y 按 位 异 或 的 结 呈 


并 返 


Elz 


N, 


=) 填充 str[0..size - 1], 


o 


A.15 Ring 


TI 是 不 透明 的 Ring_T 


环 索 引 从 0 到 N-1， 其 中 NN 是 环 的 长 度 。 空 环 没有 元 素 。 可 以 在 环 
中 任何 位 置 添加 或 删除 指针 ， 环 会 目 动 扩展 。 旋 转 环 将 改变 其 起 点 。 
癌 任 何 Ring 范 数 传递 为 NULL 的 T 值 ， 均 为 已 检查 的 运行 时 错误 。 


void *Ring_add(T ring, int pos, void *x) 
Mem_Failed 


在 环 中 位 置 


pos 插 入 x 并 返回 x。 位 置 标识 了 元 素 之 间 的 点 ， 参 见 Str 接 口 。pos<-N 或 


pos>N+1， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 是 ring 的 长 度 。 


void *Ring_addhi(T ring, void *x) 
Mem_Failed 
void *Ring_addlo(T ring, void *x) 
Mem_Failed 

将 x 添加 到 ring 的 高 端 (索引 N-1) 或 低 端 (索引 6) 并 返回 x。 


void Ring_free(T *ring) 


释放 *ring 并 将 其 清 零 。 如 果 ring 或 *ring 为 NULL， 则 造成 已 检查 的 运行 


时 错误 。 
int Ring_length(T ring) 
返回 ring 中 元 素 的 数目 。 


void *Ring_get(T ring, int 工 ) 


ail 


返回 ring 中 第 i 个 元 素 。i<0 或 i>N， 则 为 已 检查 的 运行 时 错误 ， 其 中 NN 
ring 的 长 度 。 


T Ring_new(void) 
Mem_Failed 
创建 并 返回 一 个 空 环 。 


void *Ring_put(T ring, int i; void *x) 


Mem_Failed 
将 ring 中 第 i 个 元 素 改 为 x， 并 返回 原 值 。 已 检查 的 运行 时 错误 ， 请 
Ring_get ° 


9 


见 


void *Ring_remhi(T ring) 
void *Ring_remlo(T ring) 
删除 并 返回 ring 高 端 (索引 N-1) 或 低 端 (索引 90) 处 的 元 素 。 如 果 ring 为 
空 环 ， 则 为 已 检查 的 运行 时 错误 。 
void *Ring_remove(T ring, int i) 

删除 并 返回 ring 中 的 元 素 1。i<9 或 izN， 则 为 已 检查 的 运行 时 错误 ， 其 中 N 
是 ring 的 长 度 。 


T Ring_ring(void tX; cea) 


Mem_Failed 


创建 并 返回 一 个 环 ， 其 元 素来 自 参数 的 可 变 部 分 ， 直 至 遇 到 第 一 个 NULL 指 


党 


针 为 止 。 
void Ring_rotate(T ring, int n) 

将 ring 的 起 点 向 左 (n<0) 或 向 右 (n20) 旋转 n 个 元 素 。 如 果 |n|>N， 则 
为 已 检查 的 运行 时 错误 ， 其 中 N 是 ring 的 长 度 。 


A.16 Sem 


T 是 不 透明 的 Sem_T 


typedef struct T { int count; void *queue; } T; 


直接 读 写 T 实 例 中 的 字段 ， 或 向 任何 Sem 画 数 传递 未 初始 化 的 T 实 
例 ， 均 为 未 检查 的 运行 时 错误 。 向 任何 Sem 画 数 传递 的 T 值 为 NULL， 
或 在 调用 Thread_init 之 前 调用 任何 Sem 画 数 ， 均 为 已 检查 的 运行 时 错 
误 。 


LOCK 语 句 的 语法 如 下 ，S 和 m 分 别 表示 语句 和 一 个 T 实 例 。 


LOCK(m 


) S 


END_LOCK 


mii, Z TRAITE AS, Tt lam si fe Bt e LOCK 可 能 引发 
Thread Alerted= i ° 


void Sem_init(T *s, int count) 
将 s->count 设 置 为 count“。 对 同一 T 实 例 多 次 调用 Sem_init ， 是 未 检查 的 


运行 时 错误 。 


Sem_T *Sem_new( int count) 
Mem_Failed 
创建 并 返回 一 个 T 实 例 ， 其 count 字 段 初始 化 为 count 。 


void Sem_wait(T S) 


Thread_Alerted 
调用 线程 进入 等 待 状态 ， 直 至 s->count>0， 接 下 来 将 s->count 减 1。 


void Sem_signal(T *s) 


Thread_Alerted 


将 S->count 加 1° 


A.17 Seq 


TEANGA 的 Seq_T 


序列 索引 从 0 到 N-1， 其 中 N 是 序列 的 长 度 。 空 序列 没有 元 素 。 可 
以 在 序列 低 端 (索引 0) 或 高 端 (索引 N-1) 处 添加 或 删除 指针 ， 序 列 
会 目 动 扩展 。 同 任何 Seq 芳 数 传递 的 T 值 为 NULL， 均 为 已 检查 的 运行 


时 错误 。 

void *Seq_addhi(T seq, 
Mem_Failed 

void *Seq_addlo(T seq, 


Mem_Failed 
FEXRI seqh rnin BUR FF I EX 。 
void Seq_free(T *seq) 


误 。 
int Seq_length(T seq) 

返回 seq 中 元 素 的 数目 。 
void *Seq_get(T seq, int i) 


释放 *seq 并 将 其 清 零 。 如 果 seq 或 *seq 是 NULL， 则 为 已 术 


返回 seq 中 的 第 i 个 元 素 。i<0 或 >N， 则 为 已 检查 的 运行 时 错误 ，] 


seq 的 长 度 。 
T Seq_new(int 


Mem_Failed 


创建 并 返回 一 个 空 序列 。hint 是 对 该 序列 最 大 长 度 的 估计 。 如 果 hint<0， 
则 为 已 检查 的 运行 时 错误 。 
void *Seq_put(T seq, int i, void *x) 

将 seq 中 第 i 个 元 素 改 为 x， 并 返回 原 值 。 已 检查 的 运行 时 错误 ， 请 参见 


Seq_get ° 


void *Seq_remhi(T seq) 
void *Seq_remlo(T seq) 


删除 并 返回 seq 高 端 或 低 端 的 元 素 。 如 果 seq 为 空 ， 则 为 已 检查 的 运行 时 错 


Ne 


IR ° 
T Seq_seq(void *x, sien) 
Mem_Failed 

创建 并 返回 一 个 序列 ， 其 元 素来 自 参 数 的 可 变 部 分 ， 直 至 遇 到 第 一 个 NULL 
BET AIL ° 


个 


A.18 Set 


T 是 不 透明 的 Set_T 


回 任何 Set 函 数 传 递 的 T 值 或 成 员 值 为 NULL ， 均 为 已 检查 的 运行 
时 错误 (Set diff ` Set inter ` Set minus 和 Set_union 除 外， 这 些 函 数 将 
T 的 NULL 值 解释 为 空 集 ) 。 


T Set_diff(T S, T t) 
Mem_Failed 


返回 s 和 t 的 对 称 差 s / t: s 和 t 的 对 称 差 是 一 个 集 


op 


其 成 员 只 出 现在 s 中 


或 t 中 o 


如 果 s 和 t 均 为 NULL， 或 二 者 均 非 NULL 但 cmp 和 hash 郴 数 不 同 ， 则 造成 已 检 


查 的 运行 时 错误 。 


void Set_free(T *set) 


释放 *set， 并 将 其 清 


IR ° 


Mem_Failed 


Set_inter(T 


参见 Set_diff。 


int Set_length(T set) 


` 


void *cl) 


对 set 的 每 个 成 员 member 调 用 apply(member， cl) ° 404 


返回 Set 


se 
a 


元 素 的 数目 。 


void Set_map(T set, 


set， 则 造成 已 检查 的 运行 时 错误 。 


返回 S 和 t 的 交集 snt: 其 成 员 同 时 出 现在 S 和 ft 


int Set_member(T set, const void *member ) 


aa 
T 


Mem_Failed 


` 


Set_minus(T 


行 时 错误 ， 请 参见 Set_diff。 


T 


Mem_Failed 


member 为 set 的 成 员 ， 


回 s 和 t 的 差 集 S - t: 


则 返 


O o 


void apply(const void *member, 


E1, AREO 。 
S, T 
现在 s 中 ， 不 出 现在 tj 


过 一 | 
ERAK H 


Set_new(int 


已 检查 的 运行 时 错误 ， 请 


void 


o° set 或 *set 是 NULL， 则 造成 已 检查 的 运行 时 错 


t) 


EL): 


int cmp(const void *x, const void *y), 


unsigned hash(const void *x)) 


创建 、 初 始 化 并 返 


Table_new ° 


void 


Set_put(T 


[a] 


一 个 空 


set, 


const 


集 。hint、cmp 和 hash 的 解释 ， 请 参 


void 


Rapply 修 改 


*member ) 


Mem_Failed 
如 有 必要 ， 将 member 添 加 到 set 中 。 
void *Set_remove(T set, const void *member) 


如 果 member 为 set 的 成 员 ， 则 将 member 从 set 中 删除 ， 并 返回 删除 的 成 


n, AM, 


Set_remove 返 回 NULL ° 


void **Set_toArray(T set, void *end) 
Mem_Failed 

创建 一 个 N+1I 个 元 素 的 数组 ， 将 set 的 N 个 成 员 以 未 指定 的 顺序 复制 到 数组 
中 ， 并 返回 指向 

数组 第 一 个 元 素 的 指针 。 数 组 的 元 素 N 为 end。 
T Set_union(T S, T t) 
Mem_Failed 


返回 s 和 t 的 并 集 sut: 其 成 员 出 现在 S 或 t 中 。 已 检查 的 运行 时 错误 ， 请 参见 


Set_diff ° 


A.19 Stack 


TI 是 不 透明 的 Stack_T 
向 任何 Stack 函 数 传 递 的 T 值 为 NULL， 则 为 已 检查 的 运行 时 错误 。 


int Stack_empty(T stk) 
如 果 Sstk 为 空 ， 则 返回 1， 否 则 返回 0。 
void Stack_free(T *stk) 
释放 *stk 并 将 其 清 零 。 如 果 stk 或 *stk 为 NULL， 则 为 已 检查 的 运行 时 错 


T Stack_new(void) 
Mem_Failed 

返回 一 个 新 的 空 栈 T。 
void *Stack_pop(T stk) 

弹出 并 返回 stk 的 栈 顶 元 素 。 如 果 stk 为 空 ， 则 为 已 检查 的 运行 时 错误 。 


void Stack_push(T stk, void *x) 


Mem_Failed 


将 x 推 入 stk 栈 中 。 


A.20 Str 


str 函数 操作 0 结尾 字符 串 。 位 置 标识 了 字符 之 间 的 点 ， 举 例 来 
说 ，"STRING" 字 符 串 中 的 位 置 如 下 : 


SST aR SIN Go 


任何 两 个 位 置 都 可 以 按 任意 顺序 给 出 。 创 建 字 符 串 的 Str 函 数 会 为 其 结 
果 分 配 空 间 。 在 下 文 的 描述 中 ，s[j] 表 示 s 中 位 置 1 和 和 j 之 间 的 子囊 。 辐 
任何 Str 函 数 传递 的 位 置 不 存在 或 字符 指针 为 NULL， 均 为 已 检查 的 运 
行 时 错误 〈Str_catv 和 Str_map 函 数 指 明 的 情形 除外 ) 。 


int Str_any(const char *s, int i, const char *set) 
如 果 s[i:i+1] 字 符 出 现在 set 中 ， 则 返回 s 中 该 字符 之 后 的 正 数 位 置 ， 否 则 
返回 0 2 如 果 


set=NULL， 则 为 已 检查 的 运行 时 错误 。 


char *Str_cat(const char *s1, int i1, int j1, 


Mem_Failed 


const char *s2, int 12, int j2) 


` 


返回 s1[i1: jd1] 连 接 s2 [i2: j2] 的 结果 。 


char *Str_catv(const char Ss ae) 
Mem_Failed 
返回 一 个 由 参数 可 变 部 分 的 各 个 三 元 组 组 成 的 字符 串 ， 直 至 遇 到 一 个 NULL 
由 4 秆 。 每 个 三 元 组 都 指定 了 一 个 子 串 s[i:j]。 
int Str_chr(const char *s, int i, int j, int c) 

搜索 s[i:j] 中 最 左 侧 的 字符 ce， 并 返回 在 s 中 该 子 符 之 前 的 位 置 ， 如 果 没 有 
找到 字符 c， 则 返回 0。 


int Str_cmp(const char *s1, int i1, int ji, 


const char *s2, int 12, int j2) 


如 果 si[i1:j1] <s2[i2:j2] 、sl[i1: j1]=s2[i2:j2] 或 
s1[i1:j1]>s2[i2:j2], 
分 别 返 回 <0、=0、>0 的 整数 。 


char *Str_dup(const char *s, int i, int j, int n) 


Mem_Failed 


` 


返回 s[i:j] 的 n 个 副本 连接 形成 的 结果 字符 串 。 如 果 n<0， 则 为 已 检查 的 运 


行 时 错误 。 
int Str_find(const char *s, int i, int j, const char *str) 

搜索 s[i:j] 中 最 左 侧 的 子囊 str， 并 返回 在 s 中 该 子 串 之 前 的 位 置 ， 如 果 没 
有 找到 子 串 str， 

则 返回 9。 如 果 str=NULL， 则 为 已 检查 的 运行 时 错误 。 


void Str_fmt(int code, va_list *app, 
int put(int c, void *cl), void *cl, 
unsigned char flags[ ], int width, int precision) 
这 是 一 个 Fmt 转 换 函 数 。 它 消耗 三 个 参数 : 一 个 字符 串 和 两 个 位 置 ， 并 按 


printf 的 %s 限 


定 符 的 风格 ， 将 参数 指定 的 子 串 格式 化 。app 或 flags 是 NULL， 则 为 已 检查 
的 运行 时 错误 。 


int Str_len(const char *s, int i, int j) 


` 


返回 子 串 s[i:j] 的 长 度 。 
int Str_many(const char *s, int i, int j, const char *set) 

该 函数 从 s[i:j] 开 头 处 查找 由 set 中 一 个 或 多 个 字符 构成 的 连续 非 空 序 
列 ， 并 返回 s 中 该 

序列 之 后 的 正 数 位 置 ， 如 果 s[i: j] 并 非 起 始 于 set 中 某 个 字符 ， 则 返回 
9。 如 果 Sset=NULL， 

则 为 已 检查 的 运行 时 错误 。 


char *Str_map(const char *S, int i, int ly 


Mem_Failed 

const char *from, const char *to) 
返回 根据 from 和 to 映射 sfi:j] 中 的 字符 所 得 到 的 字符 串 。 对 s [i: j] 中 的 
每 个 字符 来 说 ， 


如 果 其 出 现在 from 中 ， 则 映射 为 to 中 的 对 应 字符 。 不 出 现在 from 中 的 字符 


如 果 from 和 to 均 为 NULL， 则 使 用 此 前 设 定 的 from 和 to 值 


o 


如 果 s=NULL， 


则 from 


和 to 建立 了 一 个 默认 上 映射。 如果 from 和 to 中 仅 有 二 者 之 一 为 NULL， 或 
strlen(from) 

x#strlen(to)， 或 s、from、to 均 为 NULL， 或 第 一 次 调用 该 画 数 时 from 
和 to 均 为 NULL， 

则 造成 已 检查 的 运行 时 错误 。 
int Str_match(const char *s, int i, int j, const char *str) 

如 果 s[i:j] 以 str 开 头 ， 则 返回 s 中 str 子 串 之 后 的 位 置 ， 和 否则 返回 9。 如 
ALStr=NULL, 


则 为 已 检查 的 运行 时 错误 。 
int Str_pos(const char *s, int i) 


返回 对 应 于 的 正 数位 置 ， 从 该 值 减 去 1， 即 可 得 到 字符 s[i:i+1] 的 索引 


值 。 
int Str_rchr(const char *s, int i, int j, int c) 
是 Str_chr 的 变 体 ， 只 是 从 右 侧 开始 搜索 。 


char *Str_reverse(const char *s, int i, int j) 


Mem_Failed 

返回 s[i:j] 的 一 个 副本 ,但 其 中 的 各 个 字符 已 经 逆转 为 相反 的 方向 。 

int Str_rfind(const char *s, int i, int j, const char *str) 
Str_find 的 变 体 ， 只 是 从 右 侧 开始 搜索 。 

int Str_rmany(const char *s, int i, int j, const char *set) 


该 函数 从 结尾 处 查找 由 set 中 一 个 或 多 个 字符 构成 的 连续 非 空 序列 ， 并 返 


El 


s 中 该 


序列 之 前 的 正 数 位 置 ， 如 果 s[i: j] 并 非 结 束 于 set 中 某 个 字符 ， 则 返 
© 。 如 果 set=NULL， 
则 为 已 检查 的 运行 时 错误 。 


int Str_rmatch(const char *s, int i, int j, 


El 


const char *str) 
如 果 s[i:j] 结 束 于 str， 则 返回 s 中 子 串 str 之 前 的 正 数位 置 ， 否 则 返回 
0。 如 果 str= 


NULL， 则 为 已 检查 的 运行 时 错误 。 


int Str_rupto(const char *s, int i, int j, const char *set) 
Str_upto 的 变 体 ， 从 右 侧 开始 搜索 。 


char *Str_sub(const char tS} int i, int j) 


Mem_Failed 


` 


返回 s[i:j]。 


int Str_upto(const char *s, int i, int j, const char *set) 

从 s[i:j] 左 侧 开始 搜索 set 中 任意 人 字符， 并 返回 s 中 该 字符 之 前 的 位 置 ， 如 
果 s[i:j] 不 

包含 set 中 任意 字符 ， 则 返回 0。 如 果 set=NULL， 则 为 已 检查 的 运行 时 错 


A.21 Table 


TI 是 不 透明 的 Table_T 


向 任何 Table 函 数 传递 的 T 值 或 key 为 NULL ， 均 为 已 检查 的 运行 时 


HR 


void Table_free(T *table) 


释放 *table 并 将 其 清 零 。 如 果 table 或 *table 是 NULL， 则 是 已 检查 的 运 


行 时 错误 。 
void *Table_get(T table, const void *key) 
返回 table 中 与 key 关 联 的 值 ， 如 果 table 并 不 包含 key， 则 返回 NULL。 
int Table_length(T table) 
返回 table 中 键 - 值 对 的 数目 。 
void Table_map(T table, 


void apply(const void *key, void **value, void *cl), 
void *cl) 
按 未 指定 的 的 顺序 ， 对 table 中 每 个 键 - 值 调用 apply (key, &value, 
cl)。 如 果 apply 
修改 table， 则 造成 已 检查 的 运行 时 错误 。 
T Table_new(int hint, Mem_Failed 


int cmp(const void *x, const void *y), 

unsigned hash(const void *key) ) 

创建 、 初 始 化 并 返回 一 个 新 的 空 表 ， 可 以 包含 任意 数目 的 键 - 值 对 。hint 是 
对 表 可 能 包含 的 

键 - 值 对 数目 的 估计 。 如 果 hint<9， 则 为 已 检查 的 运行 时 错误 。cmp 和 

hash 是 用 于 比较 和 

散 列 键 的 函数 。 对 于 键 X 和 y， 如 果 x<y、x=y、x>y， 那 么 cmp(x，y) 必 须 
返回 <0、=0、>0 


的 一 个 jnt。 如 果 cmp(x，y) 返 回 零 ，hash(x) 必 须 等 于 hash(y)。 如 果 
cmp=NULL 或 


hash=NULL，Tab1le_new 将 使 用 Atom_T 键 的 对 应 函数 。 
void *Table_put(T table, 
Mem_Failed 

const void *key, void *value) 

将 table 中 与 key 关 联 的 值 改 为 value， 并 返回 此 前 与 key 关 联 的 值 ， 如 
table 并 不 

包含 key， 则 向 table 添 加 key 和 value， 并 返回 NULL。 


void *Table_remove(T table, const void *key) 
从 tab1e 中 删除 键 - 值 对 并 返回 被 删除 的 值 。 如 果 tab1le 并 不 包含 key， 则 


Table_remove 


o 


没有 效果 ， 返 回 NULL。 
void **Table_ toArray(T table, void *end) 
Mem_Failed 

创建 一 个 2N+1 个 元 素 的 数组 ， 将 table 中 的 N 个 键 - 值 对 按 未 指定 的 顺序 复 
制 到 数组 中 ， 

并 返回 指向 数组 第 一 个 元 素 的 指针 。 键 出 现在 偶数 编号 的 数组 元 素 中 ， 而 对 


应 的 值 出 现在 奇 
数 编号 的 数组 元 素 中 。 元 素 2N 为 end ° 


A.22 ‘Text 


TEP AText_T 


typedef struct T { int len; const char *str; } T; 


typedef struct Text_save_T *Text_save_T; 


Te AHIT, A IET o Dea ae Be, (ATS ue FY 
段 写 入 数据 则 是 未 检查 的 运行 时 错误 。Text 函 数 可 以 按 值 接受 并 返回 
描述 符 ， 回 任何 Text 函 数 传递 的 描述 符 ， 如 采 其 字段 str=NULL 或 
len<0， 则 为 已 检查 的 运行 时 错误 。 


Text 为 其 提供 的 不 可 变 的 字符 串 管 理 内 存 ， 向 串 空 间 写 入 数据 ， 
或 通过 外 部 手段 释放 其 中 的 内 存 ， 均 为 未 检查 的 运行 时 错误 。 串 空间 
中 的 字符 种 可 以 包 侣 0 字符 ， 因 此 其 中 的 字符 串 不 是 以 0 字符 结尾 的 。 


一 些 Text 琅 数 可 以 接受 位 置 作为 参数 ， 位 置 标 识 了 字符 之 间 的 
点 ， 参 见 Str 搂 口 。 在 下 文 的 描述 中 ，s[i: j] 表 示 s 中 位 置 1 和 j 之 间 的 子 


const T Text_cset = 256, " \O00\001...\376\377" } 


const T Text_ascii = 128, " \Q0O\001...\176\177" } 
const T Text_ucase = 26, "ABCDEFGHIJKLMNOPQRSTUVWXYZ" } 


const T Text_lease = 26, "abedefhijklmnopgrtuvwxyz" } 


mr 一 一 一 


const T Text_digits = 10, "0123456789" } 


const T Text_null = { 0, ，"””} 
上 述 是 一 些 已 经 初始 化 的 静态 描述 符 。 


int Text_any(T s, int i, T set) 


0 


之 后 的 正 数位 置 ， 否 则 


如 果 s[I:i+1] 字 符 出 现在 set 中 ， 则 返回 s 中 该 字 各 


返回 0 。 
T Text_box(const char *str, int len) 

为 客户 程序 分 配 的 长 度 len 的 字符 串 str， 建 立 并 返回 一 个 描述 符 。 如 果 
str=NULL 或 


len<0， 则 为 已 检查 的 运行 时 错误 。 


T Text_cat(T s1, T s2) 
Mem_Failed 
返回 s1 连 接 s2 得 到 的 字符 串 。 


int Text_chr(T s, int i, int j, int c) 


参见 Str_chr。 


int Text_cmp(T si, T s2) 


如 果 s1<s2、s1l = s2、s1>s2,， 分 别 返 回 <0、=0、>0 的 ijnt。 
ih Text_dup(T S, int n) 


Mem_Failed 


` 


返回 s 的 n 个 副本 连接 形成 的 字符 串 。 如 果 n<9， 则 为 已 检查 的 运行 时 错误 。 
int Text_find(T s, int i, int j, T str) 


参见 Str_find。 
void Text_fmt(int code, va_list *app, 

int put(int c, void *cl), void *cl, 

unsigned char flags[], int width, int precision) 

Xe PEt RRNA o EFE Te AF TET. FFEKprintfAy%s 
限定 符 的 风格 ， 

格式 化 该 字符 串 。 描 述 符 指针 、app 或 flags 是 NULL， 则 造成 已 检查 的 运行 


时 错误 。 
char *Text_get(char *str, int size, T s) 

%s.str[O..str.len - 1] 复 制 到 str[0.. size - 1]， 追 加 一 个 0 
字符 ， 并 返回 Str。 


W R Str=NULL , Text_get H KHED Ac 23 lel © WR str#null E 


size<s.len+i, MJX 


已 检查 的 运行 时 错误 。 


int Text_many(T s, int i, int j, T set) 

参见 Str_many。 
T Text_map(T S; const T kj from, const T *to) 
Mem_Failed 

返回 根据 from 和 to 映射 s 中 的 字符 所 得 到 的 字符 串 ， 参 见 Str_map。 如 果 
from 和 to 

均 为 NULL， 则 使 用 此 前 设 定 的 from 和 to 值 。 如 果 只 有 from 和 to 二 者 之 一 
为 NULL, 或 


from->len# to->len， 则 为 已 检查 的 运行 时 错误 。 


int Text_match(T s, int i, int j, T str) 
参见 Str_match。 
int Text_pos(T s, int i) 
参见 Str_pos。 
T Text_put(const char *str) 


Mem_Failed 


str=NULL， 则 
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将 0 结尾 字符 串 str 复 制 到 串 空 间 中 ， 并 ; 
为 已 检查 的 运行 时 错误 。 


int Text_rchr(T s, int i, int j, int c) 


参见 Str_rchr。 


void Text_restore(Text_save_T *save) 


释放 Save 创建 以 来 分 配 的 那 部 分 串 空 间 。 如 果 save=NULL， 则 为 已 检查 的 


运行 时 错误 。 


如 果 在 调用 Text_restore 之 后 ， 使 用 表示 高 于 save 位 置 的 其 他 
Text_save_T 值 ， 则 为 
未 检查 的 运行 时 错误 。 


T Text—reverse(T s) 


Mem_Failed 


` 


返回 s 的 一 个 副本 ， 其 中 的 各 个 字符 已 经 反 同 。 


int Text_rfind(T s, int i, int j, T str) 


参见 Str_rfind ° 
int Text_rmany(T s, int i, int j, T set) 
参见 Str_rmany。 
int Text_rmatch(T s, int i, int j, T str) 
参见 Str_rmatch。 
int Text_rupto(T s, int i, int j, T set) 
参见 Str_rupto。 
Text_save_T Text_save(void) 
Mem_Failed 
返回 一 个 不 透明 指针 ， 其 编码 了 当前 串 空间 顶部 的 位 置 
T Text_sub(T s, int i, int j) 
返回 s[i:j]。 


int Text_upto(T s, int i, int j, T set) 


参见 Str_upto。 


A.23 Thread 


TIT 是 不 透明 的 Thread_T 


在 调用 Thread init 之 前 调用 任何 Thread 函 数 ， 均 为 已 检查 的 运行 时 


HIR ° 


void Thread_alert(T t) 

设置 t 的 警报 - 待 决 标志 ， 并 使 t 变 为 可 运行 状态 。 下 一 次 t 运 行 时 ， 或 调用 
一 个 导致 可 能 

导致 月 塞 的 Thread、Sem 或 chan 原 语 时 ， 线 程 将 清除 其 警报 - 待 决 标志 ， 


并 引发 


Thread _Alerted 异 常 。 如 果 t=NULL,， 或 t 引 用 了 一 个 不 存在 的 线程 ， 则 
为 已 检查 的 运 
行 时 错误 。 


void Thread exit(int code) 


结束 调用 线程 ， 并 将 code 传 递 给 任何 等 待 调用 线程 结束 的 线程 。 当 最 后 一 


个 线程 调用 
Thread_exit 时 ， 程 序 将 通过 调用 exit(code) 结 束 。 


int Thread_init(int preempt, ...) 
为 非 抢占 调度 (preempt=90) 或 抢占 调度 (preempt=1) 初 始 化 Thread， 并 
回 preempt 
或 0 (如 果 preempt=1 但 不 支持 抢占 调度 ) 。Thread_init 可 能 接受 额外 
的 由 具体 实现 
定义 的 参数 ， 可 变 参 数列 表 必 须 结束 于 一 个 NULL 指 针 。 调 用 Thread_init 
多 次 ， 则 造成 


已 检查 的 运行 时 错误 。 


= 


int Thread_join(T t) 


Thread_Alerted 


挂 起 调用 线程 ， 直 至 线程 t+ 结束 。 在 t 结 束 时 ，Thread_ join 返回 t 的 退出 
代码 。 如 果 t 
=NULL， 调 用 线程 将 等 待 所 有 其 他 线程 结束 ， 然 后 返回 09。 如 果 t 指 定 的 线程 
即 为 调用 线程 
自身 ， 或 有 多 个 线程 向 该 函数 传递 了 NULL 参 数 ， 则 为 已 检查 的 运行 时 错 


N= 


1R ° 
T Thread_new(int apply(void my 
Thread_Failed 

void *args, int nbytes, ...) 


创建 、 初 始 化 并 局 动 一 个 新 线程 ， 并 返回 其 句柄 。 如 果 nbytes=0， 新 线程 


rz 


Thread_exit(apply(args)) . ç W , EM íT 


Thread_exit(apply(p)), 其 中 p 指 向 起 
始 于 args、 长 度 为 nbytes 的 内 存 块 的 一 个 副本 


。 新 线程 启动 时 ， 自 身 的 异常 栈 为 空 。 
Thread_new 可 能 接受 额外 的 由 具体 实现 定义 参数 ， 可 变 参 数列 表 必 须 结束 
于 一 个 NULL 指 


针 。 如 果 app1Ly=NULL， 或 args=NULL 且 nbytes<0， 则 为 已 检查 的 运行 时 
HR 。 
void Thread_pause(void) 
放弃 处 理 器 给 另 一 个 线程 ， 也 可 能 是 调用 线程 自身 。 
T Thread_self (void) 
返回 调用 线程 的 句柄 。 


X 


A.24 XP 


T 即 为 XP_T 


typedef unsigned char *T; 


基数 23 下 的 一 个 扩展 精度 无 符号 整数 ， 可 以 表示 为 一 个 数组 ， 包 
括 n 个 数位 ， 最 低 有 效 数 位 在 和 完 。 大 多 数 XP 芳 数 将 n 作 为 一 个 参数 ， 与 
源 和 目标 IT 实例 一 同 传递 ， 如 果 n<1 或 n 不 等 于 对 应 T 实 例 的 长 度 ， 则 为 
未 检查 的 运行 时 错误 。 辣 任何 XP 函数 传递 的 T 值 为 NULL 或 太 小 ， 均 
为 未 检查 的 运行 时 错误 。 


int XP_add(int n, Tz, T x, T y, int carry) 
将 z[9..n - 1] 设 置 为 x+y+carry， 并 返回 z[n - 1] 数 位 上 的 进位 输 
出 。carry 必 须 为 6 或 1。 


int XP_cmp(int n, T x, T y) 


对 于 Xx<y、Xx=y、Xx>y， 分 别 返 回 <0、=0、>0 的 整数 。 
int XP_diff(int n, T z, T x, int y) 

将 z[0..n - 1]KBAx - y， 其 中 y 只 有 单个 数位 ， 并 返回 z[n - 1] 
位 上 的 借 位 。 


如 果 y>28 


， 则 为 未 检查 的 运行 时 错误 。 
int XP_div(int n, Tq, T x, int m, T y, Tr, T tmp) 
将 q[0..n - 1] 设 置 为 x[0..n - 1] /y[O..m - 1], 将 r[0..m - 
1] 设 置 为 x [0..n 
-1] mod y[0..m - 1]， 如 果 yz0， 则 返回 1。 如 果 y=0，XP_div 返 回 
9， 且 不 会 修改 
q 和 r。tmp 必 须 能 够 容纳 至 少 n+m+2 个 数位 。q 或 r 与 xX 和 y 中 之 一 相同 、q 和 


一 XP_T 实 例 、tmp 能 够 容纳 的 数位 太 少 ， 都 是 未 检查 的 运行 时 错误 。 


unsigned long XP_fromint(int n, T z, unsigned long u) 


将 z[0..n - 1] 设 置 为 u mod 28" 


$ 
iy 


回 u/X28n 


o 


int XP_fromstr(int n, T z, const char *str, 

int base, char **end) 

将 str 解 释 为 base 基 数 下 的 一 个 无 符号 整数 ， 使 用 z[0..n - 1] 作 为 转换 
过 程 中 的 初始 

值 ， 并 返回 转换 步骤 中 第 一 个 非 零 的 进位 输出 。 如 果 endzxnu11， 将 *end 
设置 为 指向 str 
中 导致 扫描 结束 的 字符 或 产生 第 一 个 非 零 进位 的 字符 。 参 见 AP_fromstr 。 
int XP_length(int n, T x) 

返回 x 的 长 度 ， 即 ， 它 返回 x[0. .n - 1] 中 最 高 非 零 数位 的 索引 加 1。 
void XP_lshift(int n, T z, int m, T x, int s, int fill) 

将 z[0..n- 1] 设 置 为 x[0..m- 1] 左 移 S 个 比特 位 的 结果 ， 空 出 的 比特 位 
用 fil11 填 充 ， 

fi11 必 须 为 9 或 1。 如 果 s<90， 则 为 未 检查 的 运行 时 错误 。 


int XP_mul (T z, int n, T x, int m T y) 


7A 


将 x[0..n - 1] *y[0..m -1] 的 结果 加 到 z[0. .n+m - 1]， 并 返回 
z[ntm - 1] 数 位 
的 进位 输出 。 如 果 z=0，XP_mul 计 算 了 乘积 x * y。 如 果 z 与 x 或 y 中 之 一 为 


例 ， 则 为 未 检查 的 运行 时 错误 。 


int XP_neg(int 


将 z[0. 


1] 数 位 的 进位 输出 


ne TZ; TX 


o 


int carry) 


int XP_product(int n, Tz, T x, 
将 z[0..n - 1] 设 置 为 x * y, 
位 上 的 进位 输 
出 。 如 果 y>28 
， 则 为 未 检查 的 运行 时 错误 。 
int XP_quotient(int n, Tz, T x, 


将 z[0 


y=0 或 y>28 


.n - 1] 设 置 为 x/y， 


则 为 未 检查 的 运行 时 错误 。 


void XP_rshift 


int XP_sub(int 


z[0. 


int XP_sum(int 
z[0. 
上 的 进位 输 


7N 


.n - 1] 设 置 为 ~x+carry， 其 中 carry 为 6 或 1， 并 返回 z[n - 


int y) 
其 中 y 只 有 单个 数位 ， 并 返回 z[n - 1] 2 
int y) 
中 y 是 单个 数位 ， 并 返回 x mod y ° WR 


(int n, T z, int m, T x, int s, 


AR, BILXP_lshift ° WF 


n, T Zz, T Xy 


n, T Zz, T X; 


.n - 1] 设 置 为 x+y 


出 。 nF 


Ry>28 


RN>M, 


T y, int borrow) 
.hn - 1] 设 置 为 x - y - borrow, Fk 
位 。borrow 必 须 为 9 或 1。 


int y) 


m 


OO FN 


Py 只 有 单个 数位 ， 


int fill) 


空 出 的 比特 位 用 fi11 填 充 。 


F 


回 z[n - 1) 8th EKE 


并 返回 z[n - 1] 数 位 


， 则 为 未 检查 的 运行 时 错误 。 


unsigned long XP_toint(int n, T x) 


返回 x mod (ULONG_MAX+1) ° 


char *XP_tostr(char *str, int size, int base, int n, T x) 


用 x 在 base 基 数 下 的 字符 表示 填充 str[0. ,size- 1]， 将 x 设置 为 0， 并 返 
回 str。 如 


AStr=NULL, 或 size 太 小 ， 或 Dase<2 或 Dase>36， 均 为 已 检查 的 运行 时 


[1] 译文 并 未 使 用 上 述 缩 写 。 


[2] 即 字符 数目 ， 不 包含 结尾 0 
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